JP6550678B2 - 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム - Google Patents

行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム Download PDF

Info

Publication number
JP6550678B2
JP6550678B2 JP2016106196A JP2016106196A JP6550678B2 JP 6550678 B2 JP6550678 B2 JP 6550678B2 JP 2016106196 A JP2016106196 A JP 2016106196A JP 2016106196 A JP2016106196 A JP 2016106196A JP 6550678 B2 JP6550678 B2 JP 6550678B2
Authority
JP
Japan
Prior art keywords
value
neural network
hidden layer
time
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016106196A
Other languages
English (en)
Other versions
JP2017211913A (ja
Inventor
鈴木 潤
潤 鈴木
慶雅 鶴岡
慶雅 鶴岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Original Assignee
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, University of Tokyo NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016106196A priority Critical patent/JP6550678B2/ja
Publication of JP2017211913A publication Critical patent/JP2017211913A/ja
Application granted granted Critical
Publication of JP6550678B2 publication Critical patent/JP6550678B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラムに係り、特に、移動物の行動を決定するための行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラムに関する。
自律的に活動する機械(ロボット)を実現することは、近年発展が著しい人工知能研究の重要な課題である。ここでは、自動車の自動運転やドローンの自動飛行など、実環境で人間が介在しない状況で機械が自動で活動する状況を想定する。この場合、センサーデータ、画像データ、GPS(位置)データなどを入力とし、機械(自動車、ドローン)が、現時点の状況からどのような行動(加速、減速、右折、左折)を選択するのが適切か、時々刻々と変化する状況に合わせて、逐次選択していく問題と言える。
このような機械の自律的な行動には、周囲の環境と自身の状態を把握し、どのような行動を選択すればよいかを逐次判断することが機械に求められる。任意の環境に対して、適切な行動をおこなうために、環境に対してどのような行動をすべきかを、なんらかの形で機械に与えなくてはいけない。人間が作成するルールのようなもので、あらゆる状況を網羅し適切な行動を選択させるのは困難であるため、一般的には、実データから機械学習法などを用いて行動を学習する。このような行動を学習する場合には、必ずしも「正解」と呼べる行動が唯一存在するわけではない。しかし、一連の行動の結果、それがよかったか悪かったかといった絶対的あるいは相対的な評価を行うことは可能な場合が多い。このような問題設定の場合に、実データから機械が取るべき最良の行動を自動的に学習する方法論の一つとして、強化学習の枠組みが知られている。特に、近年は深層学習の枠組みを用いて強化学習を行うDeep Q-Networks(DQN)などの出現により、限定された環境では、人間よりもより適切に機械を動かすことが可能であることも徐々に示されつつある(非特許文献1)。
本発明は、機械が行動決定する際に利用する「行動モデル」を実データから自動的に学習する「学習フェーズ」と、学習フェーズで得られた行動モデルを用いて、実環境で実際に行動をおこなう「評価フェーズ」の大きくわけて二つの状況を含む。
Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, AlexGraves, Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg, Demis Hassabis, Human-level control through deep reinforcement learning. Nature (Letter), Vol. 518, pp. 529-533, 2015/02/26/print Sepp Hochreiter, Jrgen Schmidhuber, Long short-term memory. Neural Computation, Vol. 9 (8), pp. 1735-1780, 1997
議論を簡単にするため、例えば、環境内を自由に移動している任意の物体にぶつからないようにスタート地点からゴール地点へ移動する問題を考える。人間の場合は、環境内を移動している物体がなんであるか、どのような状態か、これまでどのような移動軌跡をとっているか、といった情報から、自身の経験に照らし合わせて、将来の位置を予測し、それに即してぶつからないように自分の行動を選択する、というようなことを、特に意識せずとも行っている、と思われる。これは、未来の状況を想定せず、現時点の情報だけで最良と思われる行動を選択しても、最終的にそれが必ずしもよい結果を生むとは限らないからである。自律移動する機械の場合にも、同様の未来予測を加味した上で適切な行動を選択できることが望ましい。
本発明では、ある環境下での機械が適切な行動をとれるような行動モデルを学習する課題に取り組む。また、そのためのツールとして前記DQNの枠組みを用いる。上記非特許文献1では、画像を入力信号とし、そこから得られる画素情報から次の行動を選択する。f行動モデルは、多層ニューラルネットワークにより表現される。よって、学習は、事前に構築された多層ニューラルネットワークのパラメタを適切に決定するプロセスとなる。また、学習時には、行動が適切であったかどうかを数値的に評価する評価値が与えられ、この評価値の期待値が高くなる行動を選択しやすくするように、多層ニューラルネットワークのパラメタを決定することになる。
前述のように、未来の状態を予測して現在の行動を決定するためには、行動モデルの学習時に、未来の状態を予測したモデルを取り込んで学習を行えばよい。その意味では、DQNの枠組みでは、ある任意の時刻の行動は、将来的に得られる評価値によっても間接的に評価されるので、将来起こり得る情報を用いて現在の行動を決定するプロセスになっていると解釈することもできなくはない。ただし、これは学習の枠組みとして、このように最終的に得られた評価値により一連の行動が評価されるとはいえ、各行動が将来的にどのような影響を及ぼすのかを直接予測してその結果を反映して行動を決定する行動モデルになっているわけではない。つまり、学習済みの行動モデルを実環境で用いる「評価フェーズ」では、将来起こり得る状況を反映した行動を選択するといった処理は全く含まれていない。
本発明では、上記事情を鑑みてなされたものであり、ネットワーク内部で直接的に将来起こりそうな状況を予測しつつ、その情報を加味した上で、現在最良と思われる行動を選択することができる行動決定装置、方法、及びプログラムを提供することを目的とする。
また、ネットワーク内部で直接的に将来起こりそうな状況を予測することができる未来予測モデルを学習する未来予測モデル学習装置、及びプログラムを提供することを目的とする。
また、ネットワーク内部で直接的に将来起こりそうな状況を予測しつつ、その情報を加味した上で、現在最良と思われる行動を選択することができる多層ニューラルネットワークを学習することができるネットワーク学習装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る行動決定装置は、移動物の行動を決定する行動決定装置であって、前記移動物の環境を表す入力データを入力として、前記移動物の行動を決定するための予め学習された多層ニューラルネットワークの各要素を計算するネットワーク計算部と、前記多層ニューラルネットワークの最終隠れ層の値と、予め学習された未来予測モデルとに基づいて、未来の時刻における前記最終隠れ層の値を予測する予測部と、前記多層ニューラルネットワークの最終隠れ層の値と、前記予測部によって予測された未来の時刻における前記最終隠れ層の値とに基づいて、前記多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値に基づいて、前記移動物の行動を決定する行動決定部と、を含んで構成されている。
本発明に係る行動決定方法は、移動物の行動を決定する行動決定装置における行動決定方法であって、ネットワーク計算部が、前記移動物の環境を表す入力データを入力として、前記移動物の行動を決定するための予め学習された多層ニューラルネットワークの各要素を計算し、予測部が、前記多層ニューラルネットワークの最終隠れ層の値と、予め学習された未来予測モデルとに基づいて、未来の時刻における前記最終隠れ層の値を予測し、行動決定部が、前記多層ニューラルネットワークの最終隠れ層の値と、前記予測部によって予測された未来の時刻における前記最終隠れ層の値とに基づいて、前記多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値に基づいて、前記移動物の行動を決定する。
本発明に係る未来予測モデル学習装置は、各時刻の移動物の環境を表す入力データを入力として、各時刻について、前記移動物の行動を決定するための予め学習された多層ニューラルネットワークの各要素を計算するシミュレーション部と、前記シミュレーション部による計算結果に基づいて、各時刻についての前記多層ニューラルネットワークの最終隠れ層の値を取得する学習データ取得部と、前記学習データ取得部によって取得した各時刻についての前記最終隠れ層の値に基づいて、未来の時刻における前記最終隠れ層の値を予測するための未来予測モデルを学習するモデル学習部と、を含んで構成されている。
本発明に係る未来予測モデル学習方法は、シミュレーション部が、各時刻の移動物の環境を表す入力データを入力として、各時刻について、前記移動物の行動を決定するための予め学習された多層ニューラルネットワークの各要素を計算し、学習データ取得部が、前記シミュレーション部による計算結果に基づいて、各時刻についての前記多層ニューラルネットワークの最終隠れ層の値を取得し、モデル学習部が、前記学習データ取得部によって取得した各時刻についての前記最終隠れ層の値に基づいて、未来の時刻における前記最終隠れ層の値を予測するための未来予測モデルを学習する。
本発明に係るネットワーク学習装置は、移動物の環境を表す入力データと、前記移動物の行動と、評価値とからなる教師データに基づいて、前記移動物の行動を決定するための多層ニューラルネットワークを学習するネットワーク学習部と、各時刻の移動物の環境を表す入力データを入力として、各時刻について、前記ネットワーク学習部によって学習された前記多層ニューラルネットワークの各要素を計算し、各時刻についての前記多層ニューラルネットワークの最終隠れ層の値を取得し、各時刻についての前記最終隠れ層の値に基づいて、未来の時刻における前記最終隠れ層の値を予測するための未来予測モデルを学習する未来予測モデル学習部と、前記教師データに含まれる前記移動物の環境を表す入力データを入力として、前記多層ニューラルネットワークの各要素を計算し、前記多層ニューラルネットワークの最終隠れ層の値と、前記未来予測モデルとに基づいて、未来の時刻における前記最終隠れ層の値を予測し、前記多層ニューラルネットワークの最終隠れ層の値と、前記予測された未来の時刻における前記最終隠れ層の値とに基づいて、前記多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値と、前記教師データに含まれる前記移動物の行動及び前記評価値とに基づいて、前記多層ニューラルネットワークを再学習するネットワーク再学習部と、を含んで構成されている。
本発明に係るネットワーク学習方法は、ネットワーク学習部が、移動物の環境を表す入力データと、前記移動物の行動と、評価値とからなる教師データに基づいて、前記移動物の行動を決定するための多層ニューラルネットワークを学習し、未来予測モデル学習部が、各時刻の移動物の環境を表す入力データを入力として、各時刻について、前記ネットワーク学習部によって学習された前記多層ニューラルネットワークの各要素を計算し、各時刻についての前記多層ニューラルネットワークの最終隠れ層の値を取得し、各時刻についての前記最終隠れ層の値に基づいて、未来の時刻における前記最終隠れ層の値を予測するための未来予測モデルを学習し、ネットワーク再学習部が、前記教師データに含まれる前記移動物の環境を表す入力データを入力として、前記多層ニューラルネットワークの各要素を計算し、前記多層ニューラルネットワークの最終隠れ層の値と、前記未来予測モデルとに基づいて、未来の時刻における前記最終隠れ層の値を予測し、前記多層ニューラルネットワークの最終隠れ層の値と、前記予測された未来の時刻における前記最終隠れ層の値とに基づいて、前記多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値と、前記教師データに含まれる前記移動物の行動及び前記評価値とに基づいて、前記多層ニューラルネットワークを再学習する。
また、本発明のプログラムは、コンピュータを、上記の行動決定装置、未来予測モデル学習装置、又はネットワーク学習装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の行動決定装置、方法、及びプログラムによれば、未来予測モデルに基づいて、未来の時刻における最終隠れ層の値を予測し、予測された未来の時刻における最終隠れ層の値に基づいて、多層ニューラルネットワークの出力層の値を計算し、移動物の行動を決定することにより、ネットワーク内部で直接的に将来起こりそうな状況を予測しつつ、その情報を加味した上で、現在最良と思われる行動を選択することができる。
また、本発明の未来予測モデル学習装置、方法、及びプログラムによれば、各時刻についての前記多層ニューラルネットワークの最終隠れ層の値を取得し、未来の時刻における前記最終隠れ層の値を予測するための未来予測モデルを学習することにより、ネットワーク内部で直接的に将来起こりそうな状況を予測することができる未来予測モデルを学習することができる。
また、本発明のネットワーク学習装置、方法、及びプログラムによれば、多層ニューラルネットワークを学習し、学習された前記多層ニューラルネットワークの各要素を計算し、各時刻についての前記最終隠れ層の値に基づいて、未来予測モデルを学習し、前記多層ニューラルネットワークと未来予測モデルとに基づいて、多層ニューラルネットワークの出力層の値を計算し、教師データに含まれる移動物の行動及び評価値に基づいて、多層ニューラルネットワークを再学習することにより、ネットワーク内部で直接的に将来起こりそうな状況を予測しつつ、その情報を加味した上で、現在最良と思われる行動を選択することができる多層ニューラルネットワークを学習することができる。
本発明の実施の形態を適用する問題の例を示す図である。 入力データの一例を示す図である。 多層ニューラルネットワークの一例を示す図である。 未来の情報を予測し現在の行動を決定する方法を説明するための図である。 未来予測モデルの学習データを説明するための図である。 未来予測モデルを学習する方法を説明するための図である。 多層ニューラルネットワーク及び未来予測モデルの一例を示す図である。 本発明の実施の形態に係るネットワーク学習装置の構成を示すブロック図である。 本発明の実施の形態に係るネットワーク学習装置の未来予測モデル学習部の構成を示すブロック図である。 本発明の実施の形態に係る行動決定装置の構成を示すブロック図である。 本発明の実施の形態に係るネットワーク学習装置におけるネットワーク学習処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態に係るネットワーク学習装置における未来予測モデルを学習する処理の流れを示すフローチャートである。 本発明の実施の形態に係るネットワーク学習装置における多層ニューラルネットワークを再学習する処理の流れを示すフローチャートである。 本発明の実施の形態に係る行動決定装置における行動決定処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態の概要>
本発明に係る実施の形態は、未来予測機能付きの行動モデルを構築するために、ベースとなる多層ニューラルネットワークに、ニューラルネットワークによる未来予測モデルを追加する。この未来予測モデルの役割は、現在のネットワークの状態と選択する行動の情報から、次のネットワークの状態を推定することである。
つまり、未来の時刻の観測データそのものを正確に予測するのは比較的困難であるため、その代わりに、将来の画像入力に基づいてネットワークのパラメタがどのように変化していくかをニューラルネットワークで予測することで、未来の状態の予測とする。また、その予測結果を利用して、現在の行動を決定するように変更する。このようなモデルを構築することで、例えば、未来予測モデルの予測精度が非常に高いと仮定すると、ネットワークの汎化した表現として、未来に起こる事象を正確に推定できていることを意味するので、その情報を元に現在の行動を決定することで、計算上は、未来を予測しながら現在の行動を決定するという行動モデルを構築することができる。
<本発明の実施の形態の原理>
本発明の実施の形態の説明とその効果を簡単に述べるために、非常に限定された状況と条件下で、機械が自動で行動選択を行う方法と、その行動選択のモデルをデータから自動的に学習する方法を述べる。
ここでは、制御対象となる自律機械が環境内を一定の速度で前方へ必ず進んでいる状況を想定する。
また、同様な自律機械が環境内に複数存在することとする。全ての自律機械が取れる行動

は、簡単のため、「右に移動」「左に移動al」「左右には動かないas」の3種類とする。
ただし、注意点として、このとき自律機械は一定の速度で進んでいるため、「左右に移動しない」を選択することは前進することを意味し、それぞれ「右に移動」「左に移動」も、実際には、右前方に移動あるいは左前方に移動という動きになる。簡単のため、ここでは制御対象の自律機械を「自律機械」、環境内のそれ以外の自律機械を「移動障害物」と呼ぶこととする(図1参照)。
ここでは、この設定で自律機械が、移動障害物に接触せずにできる限り前方へ到達するよう行動を行うモデルを自動的に獲得する問題に取り組む。これは、現実の世界での車やドローンの自動運転を簡略化した設定だと想定しており、移動障害物に接触することは、すなわち現実世界で車同士が接触することを意味するので、非常に大きな問題となる。よって、接触せずに行動するモデルを自動的に獲得する方法を構築することは非常に重要な課題である。
自律機械の周囲の環境は、自律機械に付属された前方が確認できるカメラ映像(画像)とする。また、移動障害物は、積極的に自律機械を妨害するようなことはなく、正面のカメラに自律機械がいれば、自律機械同様に接触しないように適切と思われる行動をとる。ただし、カメラの範囲に自律機械がいなければ、当然回避行動は行われる保証はない。
時刻をtとする。ここでは、一時刻単位は、1/60 秒のように非常に短い時間単位を想定する。つまり、カメラで撮影される1/60秒毎の映像データを一枚の画像データとして扱う。また、各時刻tでは4単位時刻前までの4枚の画像をまとめて入力として扱う。つまり、一入力は1/15秒分の情報となっていると言える(図2参照)。
[未来予測機能付き行動決定処理]
行動モデルとして、ここでは、多層ニューラルネットワークを想定する。例えば、非特許文献1で示されているように、画像を直接多層ニューラルネットワークに入力し、次の行動を決定するモデルである(図3参照)。
時刻tの状態を

、時刻tで選択した行動を
とする。この時、自律機械の各時刻の行動は、以下の1.〜8.のような行動モデルの計算を元に選択される。
1. (初期化) t = 0、多層ニューラルネットワークの構成を読み込み、多層ニューラルネットワークを構築する。
2. t,t-1,t-2,t-3の4単位時刻分の画像情報を入力する。ただし時刻t=0より前はダミーの初期画像が入力されたと仮定して、通常通り処理を行う。
3. 画像を受け取り、画像を固定の矩形領域で切り取り、その領域のRGBの数値を入力データとして、上記1.で構築したネットワークの入力層に入力する。
4. 入力データと、上記1.で構築したネットワークの定義に従ってネットワークの各要素の値を計算する。
5. ネットワークの最終隠れ層の情報を用いて、f時刻分先の最終隠れ層を予測する。
6. 上記5.で予測したf個の最終隠れ層と、時刻tの最終隠れ層の計f+1個の最終隠れ層の情報を用いて、ネットワークの出力層の値を計算する。
7. 時刻tの行動として、出力層の値から最も期待評価値が高くなる行動atを選択する。
8. 選択した行動によって、終了状態を判定する。
終了状態であれば、終了とし、終了状態でなければ、t←t+1として、上記2.に戻る。
ここでは、前述のように、移動障害物に接触することは本来起こってはいけないことなので、接触した場合は、終了条件を満たしたと判定し、終了となる設定とする。つまり、ここでは、極力長く接触せずに前進する行動を取れることが、良い行動であると言える。
また、上記処理のポイントは、処理5.で未来の予測を行う点と、処理6.でその予測結果を用いて現在の行動を決定する方法論になっている点である(図4参照)。
以下、上記ネットワークの構築方法(学習方法)について述べる。
[未来予測機能付き多層ニューラルネットワークの学習方式]
時刻tで得られる評価値(報酬)を

とする。学習時には、この評価値が高くなる行動をとるように学習を進める。
具体的な評価値として、ここでは、移動障害物に接触した場合、移動障害物の接触直前の距離まで近づいた場合、一定時間経過した場合、それ以外の離散値の4種類を用いる。また、前述のように、現実の状況に即して移動障害物に接触することは非常に問題が大きいことから、障害物に接触する場合の評価値は大きい負の値とし、さらに強制的に終了条件を満たしたと判定され、そこで終了となる。次に、移動障害物の非常に接近した場合は、危険であり極力起こらないことが望まれるという判定として、小さい負の値とする。また、一定期間経過するごとに小さな正の値の評価が与えられることとする。例えば、取り得る評価値の値集合



と設定する。
実環境での一回の試行は、基本的に自律機械が移動障害物に接触し、終了条件を満たすまで継続する。つまり、それまでに獲得した累計の評価値が高ければ高いほど、自律機械は適切な行動をしたという評価になる。
本発明の実施の形態では、行動モデルとなるネットワークの学習は3段階に分割して実行される。
段階1. DQNにより多層ニューラルネットワークのパラメタを学習する。
段階2. 上記1.の学習結果より得られるネットワークを用いて、未来予測モデルを学習する。
段階3. 上記2.の未来予測モデルを使って、上記1.のネットワークの最終隠れ層と出力層間のパラメタを部分的に再学習する。
段階2,3のモデルは、前の処理のモデルに依存関係があるので、順番に学習を行う。また、各モデルは、学習後に次の段階のモデル学習に不要なパラメタは全て固定し、次の段階の学習時に値が変更されないこととする。
[学習処理1:DQNによるネットワークのパラメタ学習]
この部分の学習は、非特許文献1に記載の方法をそのまま用いればよい。
[学習処理2:最終隠れ層の未来予測モデルの学習]
学習処理1で獲得したネットワークを用いて、シミュレーションを行う(評価値が与えられる必要は無い)。例えば、一回のシミュレーション結果が時刻Tで終了したと仮定する。すると、時刻tの最終隠れ層をht、出力層をot、とおくと、(ht,ot)といった、最終隠れ層と出力層のペアがt=1からt=TまでのT個生成することができる。これを、

と記載する(図5参照)。
このデータを学習用のデータとして、未来予測モデルを作成する。つまり、時刻tのデータ(ht,ot)から,ht+fを予測するモデルを構築することに相当する。ただし、予測は時刻t以降の各時刻毎に予測する形式になるので、ここでは自然な形として時系列予測のモデルを採用する。具体的には、非特許文献2で提案された、再帰型ニューラルネットワークの一種であるlog-short-term memory(LSTM)ユニットを用いる。
この再帰型のニューラルネットワークは、過去の情報を再帰計算が行われる隠れ層に保持しながら計算が行われるため、時系列データの予測モデルに適していると考えられる。よって、ここでは、まず初期状態としてtのデータを用いて時刻t+1の最終隠れ層の状態を推定し、その結果から出力層を計算し、さらにそれを次の入力としてt+2の最終隠れ層の状態を推定する、というように、時刻t+fまで予測することができる。次に、実際に観測された学習用のデータを用いて、差分を誤差逆伝搬法を用いて修正する形で、学習が進んでいく。ただしt+f≦Tとする(図6参照)。
具体的には、以下の1.〜2.の処理が行われる。
1. 事前に決めた規定回数だけ、以下の(a)〜(e)の計算を繰り返す。
(a) 学習済みネットワークを用いてシミュレーションを行う。
(b) シミュレーション結果から未来予測モデル用学習データ

を取得する。
(c) (初期化)tをランダムに決定し、i = tとする。LSTM ユニットの初期値としてhtを代入する。
(d) oiをLSTMユニットに入力しLSTM ユニットの隠れ層としてh’i+1を得る。
(e) hi+1とh’i+1の誤差が小さくなるように、誤差逆伝搬法でパラメタを更新する。
2. 終了判定を行う。累積誤差がε以下の場合は終了とし、累積誤差がε以下でない場合は、上記1.に戻る。
この未来予測モデルは、時刻tのネットワークの最終隠れ層の情報を初期値として、時刻t+1からt+fまでの最終隠れ層を予測するモデルになっている。つまり、現在の時刻tの最終隠れ層と出力層の情報のみを用いて、未来の時刻である時刻t+fまでの最終隠れ層の状態を推定する。
また、その際に、時系列データを効率的に学習できるLSTMユニットを用いることで、可変長の未来の状態をモデル化することが可能である。
この学習のメリットは、正解がモデルから得られる最終隠れ層の値なので、評価値の獲得や人手による正解データ作成といったコストが不要な点である。
[学習処理3:未来予測モデルを取り入れたネットワークの再学習]
最後に、学習処理2で獲得した未来予測モデルを用いて、ネットワークを再学習し、未来の予測を反映した行動選択が可能な行動モデルを構築する。ここでは、学習済みのネットワークの構成を極力変更したくないので、最終隠れ層と出力層との間のパラメタのみを変更する学習を行う。
具体的には、以下の1.〜5.の処理が行われる。
1. 学習済みネットワークを用いてシミュレーションを行う。
2. 時刻tにおいて、未来予測モデルを用いて時刻t+fまでの最終隠れ層の予測結果を取得する。
3. 時刻tからt+fまでのf+1個の最終隠れ層の予測結果を用いて、時刻tの出力層otを推定する(図7参照)。
4. otと評価値rtの二乗誤差が小さくなるように、誤差逆伝搬法でパラメタを更新する。
5. 終了判定を行う。累積誤差がε以下の場合は終了とし、累積誤差がε以下でない場合は、上記1.に戻る。
<ネットワーク学習装置のシステム構成>
次に、本発明の実施の形態に係るネットワーク学習装置の構成について説明する。図8に示すように、本発明の実施の形態に係るネットワーク学習装置100は、CPUと、RAMと、後述するネットワーク学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このネットワーク学習装置100は、機能的には図8に示すように教師データ入力部10と、演算部20と、パラメタ記憶部40とを備えている。
教師データ入力部10は、教師データの入力を受け付ける。ここで、教師データは、自律機械の環境を各時刻の画像情報と、自律機械の各時刻の行動と、評価値とからなる複数のデータセットである。
演算部20は、教師データベース22と、ネットワーク学習部24と、未来予測モデル学習部26と、ネットワーク再学習部28とを備えている。
教師データベース22には、教師データ入力部10により受け付けた教師データが格納される。
ネットワーク学習部24は、教師データベース22に格納された教師データに基づいて、非特許文献1に記載のDQNの手法により、自律機械の行動を決定するための多層ニューラルネットワークを学習する。
未来予測モデル学習部26は、各時刻の自律機械の環境を表す画像情報を入力として、各時刻について、ネットワーク学習部24によって学習された多層ニューラルネットワークの各要素を計算し、各時刻についての多層ニューラルネットワークの最終隠れ層の値を取得し、各時刻についての最終隠れ層の値に基づいて、未来の時刻における最終隠れ層の値を予測するための未来予測モデルを学習する。
具体的には、図9に示すように、未来予測モデル学習部26は、シミュレーション部30と、学習データ取得部32と、モデル学習部34とを備えている。
シミュレーション部30は、各時刻の自律機械の環境を表す画像情報を入力として、各時刻について、ネットワーク学習部24によって学習された多層ニューラルネットワークの各要素を計算する。なお、各時刻の自律機械の環境を表す画像情報は、教師データと同様のものでもよいし、別のデータであってもよい。
学習データ取得部32は、シミュレーション部30による計算結果に基づいて、各時刻についての多層ニューラルネットワークの最終隠れ層の値と出力層の値とを取得する。
モデル学習部34は、学習データ取得部32によって取得した各時刻についての最終隠れ層の値と出力層の値とに基づいて、未来の時刻における最終隠れ層の値を予測するための未来予測モデルを学習する。
ネットワーク再学習部28は、教師データに含まれる自律機械の環境を表すある時刻tの画像情報を入力として、多層ニューラルネットワークの各要素を計算し、多層ニューラルネットワークの最終隠れ層の値と、出力層の値と、未来予測モデル学習部26によって学習された未来予測モデルとに基づいて、未来の時刻t+1〜t+fにおける最終隠れ層の値を予測する。ネットワーク再学習部28は、多層ニューラルネットワークの最終隠れ層の値と、予測された未来の時刻t+1〜t+fにおける最終隠れ層の値とに基づいて、多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値と、教師データに含まれる自律機械の行動及び評価値とに基づいて、多層ニューラルネットワークの最終隠れ層と出力層との間のパラメタを再学習する。
ネットワーク学習部24、未来予測モデル学習部26、及びネットワーク再学習部28による学習で得られたパラメタが、パラメタ記憶部40に格納される。
<行動決定装置のシステム構成>
前述のネットワーク学習装置100で得られたパラメタを用いて、行動決定装置150によって、自律機械の環境を表す各時刻の画像情報を入力として、各時刻の自律機械の行動を決定する。
図10は、本発明の実施の形態に係る行動決定装置150を示すブロック図である。この行動決定装置150は、CPUと、RAMと、後述する行動決定処理ルーチンを実行するためのプログラムを記憶したROMと、を備えたコンピュータで構成され、機能的には次に示すように構成されている。
本実施の形態に係る行動決定装置150は、図10に示すように、入力部110と、演算部120と、出力部140とを備えている。
入力部110は、自律機械の環境を表す各時刻の画像情報を入力として受け付ける。
演算部120は、ネットワーク計算部122、予測部124、行動決定部126、パラメタ記憶部128、及び終了判定部130を備えている。
パラメタ記憶部128には、上記ネットワーク学習装置100によって学習された、多層ニューラルネットワーク及び未来行動予測モデルのパラメタが格納される。
ネットワーク計算部122は、時刻tについて、自律機械の環境を表す時刻t、t−1、t−2、t−3の画像情報を入力として、多層ニューラルネットワークの各要素を計算する。
予測部124は、時刻tについて、ネットワーク計算部122によって計算された多層ニューラルネットワークの最終隠れ層の値と、未来予測モデルとに基づいて、未来の時刻t+1〜t+fにおける最終隠れ層の値を予測する。
行動決定部126は、各時刻tについて、時刻tの多層ニューラルネットワークの最終隠れ層の値と、予測部124によって予測された未来の時刻t+1〜t+fにおける最終隠れ層の値とに基づいて、多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値に基づいて、自律機械の行動を決定する。
終了判定部130は、終了状態であるか否かを判定し、終了状態であると判定されるまで、ネットワーク計算部122、予測部124、及び行動決定部126による各処理を繰り返させる。
出力部140は、決定された各時刻の自律機械の行動を出力する。
<ネットワーク学習装置の作用>
次に、本実施の形態に係るネットワーク学習装置100の作用について説明する。まず、教師データが、ネットワーク学習装置100に入力されると、ネットワーク学習装置100によって、入力された教師データが、教師データベース22へ格納される。
そして、ネットワーク学習装置100によって、図11に示すネットワーク学習処理ルーチンが実行される。
まず、ステップS100において、教師データに基づいて、多層ニューラルネットワークのパラメタを学習し、パラメタ記憶部40に格納する。
次のステップS102では、各時刻の自律機械の環境を表す画像情報と、上記ステップS100で学習された多層ニューラルネットワークとに基づいて、未来予測モデルを学習し、パラメタ記憶部40に格納する。
上記ステップS102は、図12に示す処理ルーチンによって実現される。
ステップS110では、各時刻の自律機械の環境を表す画像情報を入力として、上記ステップS100で学習された多層ニューラルネットワークと、後述するステップS118でパラメタが更新された未来予測モデルであるLSTMユニットとを用いてシミュレーションを行って、各時刻に対し、多層ニューラルネットワークの各要素を計算する。
ステップS112では、上記ステップS110で得られたシミュレーション結果から、未来予測モデル用学習データ

を取得する。
次のステップS114では、時刻tをランダムに決定し、i= tとする。そして、ステップS116では、未来予測モデルであるLSTMユニットの初期値として、時刻tの最終隠れ層の値htを代入し、時刻tの出力層の値oiをLSTMユニットに入力して、LSTMユニットによって予測される最終隠れ層の値としてh’i+1を得る。
ステップS118では、上記ステップS112で得られた未来予測モデル用学習データに含まれる最終隠れ層の値hi+1と、上記ステップS116で得られた最終隠れ層の値h’i+1との誤差が小さくなるように、誤差逆伝搬法で、未来予測モデルであるLSTMユニットのパラメタを更新する。
ステップS120では、時刻tが終了状態であるか否かを判定し、終了状態でない場合には、ステップS122へ移行し、時刻tをt+1として、上記ステップS116へ戻る。
一方、時刻tが終了状態である場合には、ステップS124へ移行し、上記ステップS110〜S122までの処理を、既定回数だけ繰り返したか否かを判定する。上記ステップS110〜S122までの処理を、既定回数繰り返していない場合には、上記ステップS110へ戻る。一方、上記ステップS110〜S122までの処理を、既定回数だけ繰り返した場合には、ステップS126へ移行する。
ステップS126では、上記ステップS118で得られる誤差の累積誤差が、閾値以下であるか否かを判定する。上記ステップS118で得られる誤差の累積誤差が、閾値より大きい場合には、上記ステップS110へ戻って、再度、上記ステップS110〜S122までの処理を、既定回数だけ繰り返す。一方、上記ステップS118で得られる誤差の累積誤差が、閾値以下である場合には、処理ルーチンを終了する。
図11のステップS104では、教師データと、上記ステップS100で学習された多層ニューラルネットワークと、上記ステップS102で学習された未来予測モデルとに基づいて、多層ニューラルネットワークの最終隠れ層と出力層との間のパラメタを再学習し、パラメタ記憶部40に格納する。
ステップS104は、図13に示す処理ルーチンによって実現される。
ステップS130では、教師データに含まれる、各時刻の自律機械の環境を表す画像情報を入力として、上記ステップS100で学習された多層ニューラルネットワークと、上記ステップS102で学習された未来予測モデルであるLSTMユニットとを用いてシミュレーションを行って、各時刻に対し、多層ニューラルネットワークの各要素を計算する。
ステップS132では、上記ステップS130で得られた時刻tの最終隠れ層の値、出力層の値、未来予測モデルを用いて、時刻t+1〜時刻t+fまでの最終隠れ層の予測結果を取得する。
ステップS134では、上記ステップS130、S132で得られた、時刻tの最終隠れ層の値、及び時刻t+1からt+fまでのf個の最終隠れ層の予測結果を用いて、時刻tの出力層otを推定する。
ステップS136では、上記ステップS134で推定された時刻tの出力層の値otと教師データの評価値rtとの二乗誤差が小さくなるように、誤差逆伝搬法で、多層ニューラルネットワークの最終隠れ層と出力層との間のパラメタを更新する。
そして、ステップS138では、上記ステップS136で得られる誤差の累積誤差が、閾値以下であるか否かを判定する。上記ステップS136で得られる誤差の累積誤差が、閾値より大きい場合には、上記ステップS130へ戻る。一方、上記ステップS136で得られる誤差の累積誤差が、閾値以下である場合には、処理ルーチンを終了する。
<行動決定装置の作用>
次に、本実施の形態に係る行動決定装置150の作用について説明する。まず、ネットワーク学習装置100のパラメタ記憶部40に記憶されている多層ニューラルネットワーク及び未来予測モデルのパラメタが、行動決定装置150に入力されると、パラメタ記憶部128に格納される。そして、自律機械の環境を表す画像情報が逐次、行動決定装置150に入力されているときに、行動決定装置150によって、図14に示す行動決定処理ルーチンが実行される。
まず、ステップS150において、時刻t=0に初期化すると共に、パラメタ記憶部128から、多層ニューラルネットワークの構成を読み込み、多層ニューラルネットワークを構築する。
ステップS152では、時刻t,t-1,t-2,t-3の4単位時刻分の画像情報を取得する。
ステップS154では、上記ステップS152で取得した画像を固定の矩形領域で切り取り、その領域のRGBの数値を入力データとして、上記ステップS150で構築した多層ニューラルネットワークの入力層に入力する。
ステップS156では、多層ニューラルネットワークの各要素の値を計算する。
ステップS158では、上記ステップS156で得られた時刻tの最終隠れ層の値、出力層の値、及び未来予測モデルを用いて、時刻t+1〜t+fの最終隠れ層の値を予測する。
ステップS160では、上記ステップS158で予測したf個の最終隠れ層の値と、上記ステップS156で得られた時刻tの最終隠れ層の値とを用いて、多層ニューラルネットワークの出力層の値を推定する。
次のステップS162では、時刻tの行動として、出力層の値から最も期待評価値が高くなる行動atを選択し、出力部140により出力する。
ステップS164では、上記ステップS162で選択した行動によって、終了状態を判定し、終了状態でない場合には、上記ステップS152へ戻る。一方、終了状態であると判定された場合には、行動決定処理ルーチンを終了する。
以上説明したように、本発明の実施の形態に係る行動決定装置によれば、未来予測モデルに基づいて、未来の時刻における最終隠れ層の値を予測し、予測された未来の時刻における最終隠れ層の値に基づいて、多層ニューラルネットワークの出力層の値を推定し、移動物の行動を決定することにより、ネットワーク内部で直接的に将来起こりそうな状況を予測しつつ、その情報を加味した上で、現在最良と思われる行動を選択することができる。
また、現時点までの情報だけでなく、未来に起こる状況を推定しながら、適切な行動を選択することが可能となる。これにより、例えば、局所的にはよい行動でも大局的に見るとよくない行動を選択するといった可能性が減り、より無駄の少ない機械の行動制御が可能となる。また、これは、無駄な行動を選択することが減ることに繋がる。実世界においては、機械が行動するためには、電力や燃料の消費といった全ての行動にコストが発生するので、省エネルギーによる機械の自律的な行動が可能になることが期待できる。
また、本発明の実施の形態に係るネットワーク学習装置によれば、各時刻についての多層ニューラルネットワークの最終隠れ層の値を取得し、未来の時刻における最終隠れ層の値を予測するための未来予測モデルを学習することにより、ネットワーク内部で直接的に将来起こりそうな状況を予測することができる未来予測モデルを学習することができる。
また、多層ニューラルネットワークを学習し、学習された多層ニューラルネットワークの各要素を計算し、各時刻についての最終隠れ層の値に基づいて、未来予測モデルを学習し、多層ニューラルネットワークと未来予測モデルとに基づいて、多層ニューラルネットワークの出力層の値を計算し、教師データに含まれる移動物の行動及び評価値に基づいて、多層ニューラルネットワークを再学習することにより、ネットワーク内部で直接的に将来起こりそうな状況を予測しつつ、その情報を加味した上で、現在最良と思われる行動を選択することができる多層ニューラルネットワークを学習することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、未来予測モデルの入力を、最終隠れ層の値と出力層との値とする場合を例に説明したが、これに限定されるものではなく、未来予測モデルの入力を、最終隠れ層の値のみとしてもよい。
また、パラメタ記憶部40、128及び教師データベース33は、外部に設けられ、ネットワーク学習装置100及び行動決定装置150とネットワークで接続されていてもよい。
また、上記実施の形態では、ネットワーク学習装置100と行動決定装置150とを別々の装置として構成する場合を例に説明したが、ネットワーク学習装置100と行動決定装置150とを1つの装置として構成してもよい。
また、ネットワーク学習装置100の未来予測モデル学習部26を備えた未来予測モデル学習装置として構成してもよい。
上述のネットワーク学習装置100及び行動決定装置150は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 教師データ入力部
20 演算部
22 教師データベース
24 ネットワーク学習部
26 未来予測モデル学習部
28 ネットワーク再学習部
30 シミュレーション部
32 学習データ取得部
33 教師データベース
34 モデル学習部
40 パラメタ記憶部
100 ネットワーク学習装置
110 入力部
120 演算部
122 ネットワーク計算部
124 予測部
126 行動決定部
128 パラメタ記憶部
130 終了判定部
140 出力部
150 行動決定装置

Claims (7)

  1. 移動物の行動を決定する行動決定装置であって、
    前記移動物の環境を表す入力データを入力として、前記移動物の行動を決定するための予め学習された多層ニューラルネットワークの各要素を計算するネットワーク計算部と、
    前記多層ニューラルネットワークの最終隠れ層の値と、予め学習された未来予測モデルとに基づいて、未来の時刻における前記最終隠れ層の値を予測する予測部と、
    前記多層ニューラルネットワークの最終隠れ層の値と、前記予測部によって予測された未来の時刻における前記最終隠れ層の値とに基づいて、前記多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値に基づいて、前記移動物の行動を決定する行動決定部と、
    を含む行動決定装置。
  2. 各時刻の移動物の環境を表す入力データを入力として、各時刻について、前記移動物の行動を決定するための予め学習された多層ニューラルネットワークの各要素を計算するシミュレーション部と、
    前記シミュレーション部による計算結果に基づいて、各時刻についての前記多層ニューラルネットワークの最終隠れ層の値を取得する学習データ取得部と、
    前記学習データ取得部によって取得した各時刻についての前記最終隠れ層の値に基づいて、未来の時刻における前記最終隠れ層の値を予測するための未来予測モデルを学習するモデル学習部と、
    を含む未来予測モデル学習装置。
  3. 移動物の環境を表す入力データと、前記移動物の行動と、評価値とからなる教師データに基づいて、前記移動物の行動を決定するための多層ニューラルネットワークを学習するネットワーク学習部と、
    各時刻の移動物の環境を表す入力データを入力として、各時刻について、前記ネットワーク学習部によって学習された前記多層ニューラルネットワークの各要素を計算し、各時刻についての前記多層ニューラルネットワークの最終隠れ層の値を取得し、各時刻についての前記最終隠れ層の値に基づいて、未来の時刻における前記最終隠れ層の値を予測するための未来予測モデルを学習する未来予測モデル学習部と、
    前記教師データに含まれる前記移動物の環境を表す入力データを入力として、前記多層ニューラルネットワークの各要素を計算し、前記多層ニューラルネットワークの最終隠れ層の値と、前記未来予測モデルとに基づいて、未来の時刻における前記最終隠れ層の値を予測し、前記多層ニューラルネットワークの最終隠れ層の値と、前記予測された未来の時刻における前記最終隠れ層の値とに基づいて、前記多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値と、前記教師データに含まれる前記移動物の行動及び前記評価値とに基づいて、前記多層ニューラルネットワークを再学習するネットワーク再学習部と、
    を含むネットワーク学習装置。
  4. 移動物の行動を決定する行動決定装置における行動決定方法であって、
    ネットワーク計算部が、前記移動物の環境を表す入力データを入力として、前記移動物の行動を決定するための予め学習された多層ニューラルネットワークの各要素を計算し、
    予測部が、前記多層ニューラルネットワークの最終隠れ層の値と、予め学習された未来予測モデルとに基づいて、未来の時刻における前記最終隠れ層の値を予測し、
    行動決定部が、前記多層ニューラルネットワークの最終隠れ層の値と、前記予測部によって予測された未来の時刻における前記最終隠れ層の値とに基づいて、前記多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値に基づいて、前記移動物の行動を決定する
    行動決定方法。
  5. シミュレーション部が、各時刻の移動物の環境を表す入力データを入力として、各時刻について、前記移動物の行動を決定するための予め学習された多層ニューラルネットワークの各要素を計算し、
    学習データ取得部が、前記シミュレーション部による計算結果に基づいて、各時刻についての前記多層ニューラルネットワークの最終隠れ層の値を取得し、
    モデル学習部が、前記学習データ取得部によって取得した各時刻についての前記最終隠れ層の値に基づいて、未来の時刻における前記最終隠れ層の値を予測するための未来予測モデルを学習する
    未来予測モデル学習方法。
  6. ネットワーク学習部が、移動物の環境を表す入力データと、前記移動物の行動と、評価値とからなる教師データに基づいて、前記移動物の行動を決定するための多層ニューラルネットワークを学習し、
    未来予測モデル学習部が、各時刻の移動物の環境を表す入力データを入力として、各時刻について、前記ネットワーク学習部によって学習された前記多層ニューラルネットワークの各要素を計算し、各時刻についての前記多層ニューラルネットワークの最終隠れ層の値を取得し、各時刻についての前記最終隠れ層の値に基づいて、未来の時刻における前記最終隠れ層の値を予測するための未来予測モデルを学習し、
    ネットワーク再学習部が、前記教師データに含まれる前記移動物の環境を表す入力データを入力として、前記多層ニューラルネットワークの各要素を計算し、前記多層ニューラルネットワークの最終隠れ層の値と、前記未来予測モデルとに基づいて、未来の時刻における前記最終隠れ層の値を予測し、前記多層ニューラルネットワークの最終隠れ層の値と、前記予測された未来の時刻における前記最終隠れ層の値とに基づいて、前記多層ニューラルネットワークの出力層の値を推定し、推定された出力層の値と、前記教師データに含まれる前記移動物の行動及び前記評価値とに基づいて、前記多層ニューラルネットワークを再学習する
    ネットワーク学習方法。
  7. コンピュータを、請求項1に記載の行動決定装置、請求項2に記載の未来予測モデル学習装置、又は請求項3に記載のネットワーク学習装置を構成する各部として機能させるためのプログラム。
JP2016106196A 2016-05-27 2016-05-27 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム Active JP6550678B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016106196A JP6550678B2 (ja) 2016-05-27 2016-05-27 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016106196A JP6550678B2 (ja) 2016-05-27 2016-05-27 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017211913A JP2017211913A (ja) 2017-11-30
JP6550678B2 true JP6550678B2 (ja) 2019-07-31

Family

ID=60474819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016106196A Active JP6550678B2 (ja) 2016-05-27 2016-05-27 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6550678B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6917878B2 (ja) * 2017-12-18 2021-08-11 日立Astemo株式会社 移動体挙動予測装置
JP6971181B2 (ja) * 2018-03-20 2021-11-24 ヤフー株式会社 予測装置、予測方法、およびプログラム
WO2019240047A1 (ja) * 2018-06-11 2019-12-19 Necソリューションイノベータ株式会社 行動学習装置、行動学習方法、行動学習システム、プログラム、及び記録媒体
JP7398373B2 (ja) * 2018-07-04 2023-12-14 株式会社Preferred Networks 制御装置、システム、制御方法、及びプログラム
JP7167625B2 (ja) * 2018-10-25 2022-11-09 大日本印刷株式会社 状態推移予測装置、コンピュータプログラム及び学習装置
JP7203563B2 (ja) * 2018-10-29 2023-01-13 日立Astemo株式会社 移動体挙動予測装置
EP3982260A4 (en) 2019-06-07 2022-12-28 Nippon Telegraph And Telephone Corporation DIGITAL TWIN IMPLEMENTATION DEVICE, DIGITAL TWIN IMPLEMENTATION METHOD, PROGRAM AND DATA STRUCTURE
CN110518860B (zh) * 2019-08-30 2021-05-04 长安大学 一种永磁同步电机模型预测控制方法
CN110535396B (zh) * 2019-08-30 2021-03-30 长安大学 基于bp神经网络的表面式永磁同步电机模型预测控制方法
CN110518847B (zh) * 2019-08-30 2021-03-30 长安大学 基于bp神经网络的表面式永磁同步电机模型预测控制方法
CN112256526B (zh) * 2020-10-14 2024-02-23 中国银联股份有限公司 基于机器学习的数据实时监控方法以及装置
JP7538756B2 (ja) * 2021-03-18 2024-08-22 株式会社東芝 データ生成装置、データ生成方法、制御装置、制御方法及びプログラム
WO2024042586A1 (ja) * 2022-08-22 2024-02-29 日本電信電話株式会社 交通分散制御システム、方法、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007001025B4 (de) * 2007-01-02 2008-11-20 Siemens Ag Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems

Also Published As

Publication number Publication date
JP2017211913A (ja) 2017-11-30

Similar Documents

Publication Publication Date Title
JP6550678B2 (ja) 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム
JP7532615B2 (ja) 自律型車両の計画
Kahn et al. Uncertainty-aware reinforcement learning for collision avoidance
JP6935550B2 (ja) 強化学習を使用した環境ナビゲーション
Kuutti et al. A survey of deep learning applications to autonomous vehicle control
Singla et al. Memory-based deep reinforcement learning for obstacle avoidance in UAV with limited environment knowledge
CN111587408B (zh) 机器人导航和对象跟踪
Wang et al. Formulation of deep reinforcement learning architecture toward autonomous driving for on-ramp merge
CN111258217B (zh) 实时对象行为预测
JP7335434B2 (ja) 後知恵モデリングを用いた行動選択ニューラルネットワークの訓練
EP3660745A1 (en) Real time decision making for autonomous driving vehicles
US11992944B2 (en) Data-efficient hierarchical reinforcement learning
JP6840363B2 (ja) ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム
US10860927B2 (en) Stacked convolutional long short-term memory for model-free reinforcement learning
CN110447041B (zh) 噪声神经网络层
KR102303126B1 (ko) 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템
EP3929814A1 (en) Making time-series predictions using a trained decoder model
US12008077B1 (en) Training action-selection neural networks from demonstrations using multiple losses
US20220036186A1 (en) Accelerated deep reinforcement learning of agent control policies
JP7448683B2 (ja) マルチタスク強化学習におけるメタ勾配を用いたアクション選択のための学習オプション
JP2024506025A (ja) 短期記憶ユニットを有する注意ニューラルネットワーク
Kalapos et al. Sim-to-real reinforcement learning applied to end-to-end vehicle control
KR20210022891A (ko) 차선 유지 제어 방법 및 그 장치
US20240143975A1 (en) Neural network feature extractor for actor-critic reinforcement learning models
KR20240057126A (ko) 경로 분포 추정 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180531

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190614

R150 Certificate of patent or registration of utility model

Ref document number: 6550678

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250