JP6845529B2 - 行動決定システム及び自動運転制御装置 - Google Patents

行動決定システム及び自動運転制御装置 Download PDF

Info

Publication number
JP6845529B2
JP6845529B2 JP2017215645A JP2017215645A JP6845529B2 JP 6845529 B2 JP6845529 B2 JP 6845529B2 JP 2017215645 A JP2017215645 A JP 2017215645A JP 2017215645 A JP2017215645 A JP 2017215645A JP 6845529 B2 JP6845529 B2 JP 6845529B2
Authority
JP
Japan
Prior art keywords
value
function
action
value function
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017215645A
Other languages
English (en)
Other versions
JP2019087096A (ja
Inventor
康輔 中西
康輔 中西
安井 裕司
裕司 安井
祐紀 喜住
祐紀 喜住
翔太 大西
翔太 大西
石井 信
信 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Kyoto University
Original Assignee
Honda Motor Co Ltd
Kyoto University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd, Kyoto University filed Critical Honda Motor Co Ltd
Priority to JP2017215645A priority Critical patent/JP6845529B2/ja
Publication of JP2019087096A publication Critical patent/JP2019087096A/ja
Application granted granted Critical
Publication of JP6845529B2 publication Critical patent/JP6845529B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、強化学習法を用いてエージェントによる行動を決定する行動決定システム、及びこれを備えた自動運転制御装置に関する。
従来、強化学習法を用いた行動決定システムとして、特許文献1に記載されたものが知られている。この行動決定システムでは、複数の利用者の発言を状態s、発言に対する応答を行動a、報酬をrとして、報酬rが最大になるように、行動価値関数Qを定義し(同文献の式4)、この行動価値関数Qを用いて強化学習を実行する。そして、学習結果に基づいて、行動aを算出し、これを応答として、ロボットに読み出させている。
このように行動価値関数Qを用いて強化学習を実行する場合、行動価値関数Qをニューラルネットワークで近似するとともに、誤差関数LをTD誤差に基づいて定義し、これが最小になるように、ニューラルネットワークを更新する手法が知られている。この場合、一般的なQ学習法では、誤差関数Lとして、下式(1)に示すものが用いられる。
この式(1)において、θはニューラルネットワークのパラメータ(重みなど)を、s’は状態の次回値をそれぞれ表している。また、γは0<γ≦1が成立するように設定される割引率である。
しかし、上式(1)に示す誤差関数Lを用いた場合、更新の目標となる行動価値関数もステップ毎の更新によって変動する関係上、ニューラルネットワークの更新が不安定になり、学習が不安定になってしまう。この問題を回避するために、Fixed Target Q-Network法では、誤差関数Lとして、下式(2)に示すように、行動価値関数Qに代えて、Target Q-Networkの出力値(以下「ターゲット値」という)TをTD誤差の期待報酬に含むように定義されたものが用いられる(非特許文献1,2)。
特開2017−173874号公報 "Human-level control through deep reinforcement learning", [online], [平成29年11月2日検索], インターネット<URL:http://www.teach.cs.toronto.edu/~csc2542h/fall/material/csc2542f16_dqn.pdf> "Deep Reinforcement Learning with Double Q-learning", [online], [平成29年11月2日検索], インターネット<URL:https://arxiv.org/pdf/1509.06461.pdf>
上記式(2)に示す誤差関数Lを用いて、ニューラルネットワークを更新した場合、所定回数の学習が実行されるまでの間、ターゲット値Tが更新されることなく保持されるので、行動価値関数の更新の目標となる値が固定化されることによって、学習の安定性を確保することができる。しかしながら、ニューラルネットワークの更新速度が抑制されてしまうことによって、学習速度が低下するという問題がある。
本発明は、上記課題を解決するためになされたもので、強化学習法を用いる場合において、学習の安定性を確保しながら、学習速度を向上させることができる行動決定システム及び自動運転制御装置を提供することを目的とする。
上記目的を達成するために、本発明は、強化学習法を用いてエージェント(自動運転制御装置1,1A〜1C)による行動aを決定する行動決定システム10,10A〜10Cにおいて、環境9からエージェントに入力される情報(状態s、状況データdata_s)を用いて、第1価値関数(行動価値関数Q)を算出する第1価値関数算出手段(ECU2、行動価値算出部11,11B,11C)と、第1価値関数を用いて、エージェントによる最適な行動を決定する行動決定手段(ECU2、方策算出部12,12C、行動算出部20)と、第1価値関数のTD誤差(式(3),(5),(9),(11)の右辺第1項の{}内の値)と、第1価値関数と第1価値関数の目標となる値を算出する関数である第2価値関数(ターゲット値T)との差分(式(4),(6),(10),(12)の右辺第1項の{}内の値)と、を含むように定義された誤差関数Lが最小になるように、第1価値関数を更新する第1価値関数更新手段(ECU2、行動価値算出部11,11B,11C)と、を備えることを特徴とする。
この行動決定システムによれば、環境からエージェントに入力される情報を用いて、第1価値関数が算出され、第1価値関数を用いて、エージェントによる最適な行動が決定される。さらに、第1価値関数のTD誤差と、第1価値関数と第1価値関数の目標となる値を算出する関数である第2価値関数との差分を含むように定義された誤差関数が最小になるように、第1価値関数が更新されるので、前述した式(1)の誤差関数を用いた場合と比べて、学習初期などの、TD誤差が大きくなり、第1価値関数の更新が不安定な状態になった際でも、その影響を第1価値関数と第2価値関数との差分によって緩和しながら、第1価値関数を更新することができ、学習の安定性を確保することができる。これに加えて、前述した式(2)の誤差関数と異なり、ターゲット値Tが誤差関数のTD誤差に含まれていないので、第1価値関数の更新速度すなわち学習速度を向上させることができる(なお、本明細書における「第1価値関数を算出する」ということは、独立変数の値を第1価値関数に代入することにより、従属変数としての第1価値関数の値を算出/設定することを意味する。また、本明細書における「第1価値関数を更新する」ということは、第1価値関数における独立変数以外のパラメータ成分を更新することを意味する)。
本発明において、第1価値関数更新手段は、誤差関数として、差分が所定値ε1を超えているときには、TD誤差と差分を含むように定義された誤差関数を用い、差分が所定値ε1以下のときには、TD誤差のみを含むように定義された誤差関数を用いることが好ましい。
この制御装置によれば、差分が所定値以下のときには、TD誤差のみを含むように定義された誤差関数を用いて、第1価値関数が更新されるので、TD誤差のみを減少するように第1価値関数を更新することができ、その更新速度を向上させることができる。
本発明において、情報(状態s、状況データdata_s)を用いて、第2価値関数(ターゲット値T)を算出する第2価値関数算出手段(ECU2、ターゲット値算出部14,14B,14C)と、第2価値関数(ターゲット値T)を第1価値関数(行動価値関数Q)よりも遅い更新速度で更新する第2価値関数更新手段(ECU2、ターゲット値算出部14,14B,14C)と、をさらに備えることが好ましい。
この制御装置によれば、第2価値関数が、情報を用いて算出されるとともに、第1価値関数よりも遅い更新速度で更新されるので、TD誤差の挙動が不安定な状態になったときでも、その影響を第1価値関数と第2価値関数の差分によって緩和しながら、第1価値関数を安定した状態で更新することができ、学習の安定性を確保することができる。さらに、第1価値関数よりも遅い更新速度で更新される第2価値関数がTD誤差に含まれていないので、前述した式(2)の誤差関数を用いた場合と比べて、第1価値関数の更新速度すなわち学習速度を向上させることができる。
本発明において、第2価値関数として固定された関数(ターゲット値Tref)を用いることが好ましい。
この制御装置によれば、第2価値関数として固定された関数が用いられるので、この固定された関数を適切なもの(例えば他のシステムで学習済みの第2価値関数)に設定することにより、TD誤差の挙動が不安定な状態になったときでも、その影響を第1価値関数と第2価値関数の差分によって緩和しながら、第1価値関数を安定した状態で更新することができ、学習の安定性を確保することができる。さらに、一定値に設定された第2価値関数がTD誤差に含まれていないので、前述した式(2)の誤差関数を用いた場合と比べて、第1価値関数の更新速度すなわち学習速度を向上させることができる(なお、本明細書における「固定された関数」は、独立変数以外の値が固定された形式の関数を意味する)。
本発明において、情報は、環境9の状態sであり、第1価値関数は、環境9の状態s及び行動aを評価するための行動価値関数Qであり、行動決定手段は、所定手法(ε-greedy法)を用いて、行動価値関数に基づき、最適な行動aを決定することが好ましい。
この制御装置によれば、行動価値関数という1つの関数の算出結果を用いて、最適な行動を決定することができるので、複数の関数を用いる場合と比べて、演算負荷を低減することができる。さらに、前述したように、行動価値関数を安定した状態で更新できることにより、学習を効率的に実行することができる。
本発明において、情報は、環境9の状態であり、第1価値関数は、環境9の状態を評価するための状態価値関数と行動を評価するための方策関数とを含み、行動決定手段は、方策関数を用いて、最適な行動aを決定し、第1価値関数更新手段は、誤差関数Lが最小になるように、状態価値関数を更新し、状態価値関数が最大となるように、方策関数を更新する方策関数更新手段(ECU2、行動算出部20)をさらに備えることが好ましい。
この制御装置によれば、第1価値関数が、環境の状態を評価するための状態価値関数と行動を評価するための方策関数とを含んでいるので、方策関数を学習する際の任意性を向上させることができ、連続空間や高次元空間に対応できるとともに、エージェントによる探索行動のコントロールを容易に実行することができる。さらに、誤差関数が最小になるように、状態価値関数が更新され、状態価値関数が最大となるように、方策関数が更新されるので、方策関数を、その挙動が不安定になるのを抑制しながら安定した状態で更新することができる。
本発明において、情報は、エージェントが所定周期(制御周期ΔT)で最適な行動aを複数回、実行したときに、環境9から所定周期で入力される情報の複数の時系列離散データst+iであり、第1価値関数のTD誤差は、情報の複数の時系列離散データst+iを用いて算出した報酬の複数の時系列離散データr(st+i)を含むように構成されていることが好ましい。
この制御装置によれば、情報の複数の時系列離散データを用いて、第1価値関数の複数の時系列離散データが算出され、第1価値関数のTD誤差は、情報の複数の時系列離散データを用いて算出した報酬の複数の時系列離散データを含むように構成されており、そのようなTD誤差を含むように定義された誤差関数が最小になるように、第1価値関数が更新されるので、1つの情報の時系列離散データを用いた場合と比べて、過去に行った行動の第1価値関数による評価をより迅速に第1価値関数の更新に反映させることができ、その更新作業がより促進されることで、学習速度をさらに向上させることができる。
本発明は、上記の行動決定システムシステム10,10A〜10Cを備え、自動運転車両3を制御する自動運転制御装置1,1A〜1Cにおいて、情報は、自動運転車両3の動作状況及び動作環境を表す状況データdata_sであり、行動は、自動運転車両3を制御するための目標値又は指令値であることが好ましい。
この制御装置によれば、自動運転車両の動作状況及び動作環境を表す状況データを用いて、第1価値関数が算出され、第1価値関数を用いて、自動運転車両を制御するための目標値又は指令値が最適な値に決定されるので、自動運転車両の制御精度を向上させることができる。
本発明の第1実施形態に係る自動運転制御装置及び行動決定システムと、これらを適用した自動運転車両の構成を模式的に示す図である。 第1実施形態の行動決定システムの機能的な構成を示すブロック図である。 第1実施形態の誤差関数を用いた場合と、従来の誤差関数を用いた場合の行動価値関数の学習速度を説明するための図である。 学習制御を示すフローチャートである。 自動運転制御を示すフローチャートである。 自動運転車両が追い越しを実行するときの状態を示す図である。 第2実施形態の行動決定システムの機能的な構成を示すブロック図である。 第3実施形態の行動決定システムの機能的な構成を示すブロック図である。 第4実施形態の行動決定システムの機能的な構成を示すブロック図である。
以下、図面を参照しながら、本発明の第1実施形態に係る自動運転制御装置及び行動決定システムについて説明する。本実施形態の自動運転制御装置は、後述する行動決定システムを備えており、まず、自動運転制御装置について説明する。なお、本実施形態では、自動運転制御装置がエージェントに相当する。
図1に示すように、この自動運転制御装置1は、四輪タイプの自動運転車両3に適用されたものであり、ECU2を備えている。なお、以下の説明では、この自動運転車両3を「自車両3」という。
このECU2には、状況検出装置4、原動機5及びアクチュエータ6が電気的に接続されている。この状況検出装置4は、カメラ、ミリ波レーダー、レーザーレーダ、ソナー、GPS及び各種のセンサなどで構成されており、自車両3の動作状況及び動作環境を表す状況データdata_sをECU2に出力する。なお、本実施形態では、状況データdata_sが情報及び環境の状態に相当する。
この場合、状況データdata_sは、車速、操舵角、ヨーレート、加速度、躍度、道路端の座標、他車両との相対位置及び他車両との相対速度などを含む数十種類のデータで構成されている。
原動機5は、例えば、電気モータなどで構成されており、後述するように、ECU2によって自動運転制御が実行される際、原動機5の動作状態が制御される。
また、アクチュエータ6は、制動用アクチュエータ及び操舵用アクチュエータなどで構成されており、後述するように、自動運転制御を実行するときに、アクチュエータ6の動作が制御される。
一方、ECU2は、CPU、RAM、ROM、E2PROM、I/Oインターフェース及び各種の電気回路(いずれも図示せず)などからなるマイクロコンピュータで構成されており、上述した状況検出装置4からの状況データdata_sなどに基づいて、後述するように、自動運転制御などを実行する。
なお、本実施形態では、ECU2が第1価値関数算出手段、行動決定手段、第1価値関数更新手段、第2価値関数算出手段及び第2価値関数更新手段に相当する。
次に、図2を参照しながら、本実施形態の自動運転制御装置1における行動決定システム10について説明する。同図において、環境9は、情報としての行動aが入力されたときに、状態st+1を出力する系であり、この行動決定システム10では、環境9から入力される状態s,st+1を用いて、以下に述べる算出アルゴリズムにより、行動aが算出される。
ここで、状態s及び行動aは、後述する所定の制御周期ΔT(例えば10msec)に同期してサンプリング又は算出された離散データであり、状態s及び行動aの添字t(tは正の整数)は、離散データの制御時刻(すなわちサンプリング/算出タイミング)を表している。
具体的には、状態sの添字tは、今回の制御タイミングでサンプリング/算出された値(以下「今回値」という)であることを、状態st+1の添字t+1は、次回の制御タイミングでサンプリング/算出されると推定される値(以下「次回値」という)であることをそれぞれ示している。この点は、以下に述べる離散データにおいても同様である。
なお、実際の制御では、状態の次回値st+1は、今回の制御タイミングでサンプリング/算出することはできないので、今回の制御タイミングでサンプリング/算出された状態sの値が状態の次回値st+1として用いられるとともに、前回の制御タイミングでサンプリング/算出された状態の次回値st+1が状態の今回値sとして用いられる。また、以下の説明では、各離散データにおける添字を適宜省略する。
図2に示すように、行動決定システム10は、行動価値算出部11、方策算出部12、最大値選択部13、ターゲット値算出部14、報酬算出部15及び誤差関数算出部16を備えている。この行動決定システム10の場合、これらの要素11〜16は、具体的にはECU2によって構成されており、この点は後述する行動決定システム10A〜10Cにおいても同様である。
この行動価値算出部11は、行動価値関数Qを算出するものであり、状態sを入力とし、行動価値関数Qを出力とするQ算出用のニューラルネットワーク(図示せず)を備えている。このQ算出用のニューラルネットワークでは、値jをj=1〜n(nは複数)と規定したときに、状態の今回値sを用いて、n個の行動価値関数Q(s,a)が算出され、これが方策算出部12に出力される。
さらに、このQ算出用のニューラルネットワークでは、状態の次回値st+1を用いて、n個の行動価値関数Q(st+1,aj+1)が算出され、これが最大値選択部13に出力される。
これに加えて、行動価値算出部11では、誤差関数算出部16から入力される誤差関数Lに基づいて、バックプロパゲーション法をはじめとする勾配法によって誤差勾配を計算し、誤差関数Lが最小になるように、Q算出用のニューラルネットワークのパラメータθ(重みなど)が前述した制御周期ΔTで更新される。
さらに、このパラメータθの更新回数が所定値(例えば値10000)に達する毎に、その時点のパラメータθが、更新用のパラメータθ ̄としてターゲット値算出部14に出力される。なお、本実施形態では、行動価値算出部11が第1価値関数算出手段及び第1価値関数更新手段に相当し、行動価値関数Qが第1価値関数に相当する。
また、方策算出部12では、行動価値算出部11から入力される行動価値関数のn個の値Q(s,a)に基づいて、ε-greedy法(所定手法)により、最適な行動aが決定される。すなわち、行動価値関数Q(s,a)が最大となる行動aを最適な行動aとして値1−εの確率で選択するとともに、n個の行動aから行動aを値εの確率でランダムに選択される。
この場合、値εは0<ε<1が成立するように設定される。そして、方策算出部12では、選択された最適な行動aが環境9に出力され、選択された行動aに対応する行動価値関数Q(s,a)が、誤差関数算出部16に出力される。なお、本実施形態では、方策算出部12が行動決定手段に相当する。
さらに、最大値選択部13では、行動価値算出部11から入力された行動価値関数のn個の値Q(st+1,aj+1)を比較し、これらの中から最大値maxat+1Q(st+1,at+1)を選択した後、選択された最大値maxat+1Q(st+1,at+1)が誤差関数算出部16に出力される。これに加えて、選択された最大値maxat+1Q(st+1,at+1)に対応する行動の次回値at+1がターゲット値算出部14に出力される。
一方、ターゲット値算出部14では、ターゲット値算出用のニューラルネットワーク(図示せず)を用いて、行動価値関数Q(st+1,at+1)の目標となるターゲット値T(st+1,at+1)が算出される。このターゲット値算出用のニューラルネットワークは、状態の次回値st+1及び行動の次回値at+1が入力されたときに、ターゲット値T(st+1,at+1)を出力するように構成されており、そのパラメータは、前述したように、行動価値算出部11から入力される更新用のパラメータθ ̄に設定される。
それにより、ターゲット値算出用のニューラルネットワークのパラメータθ ̄は、前述したように、パラメータθの更新回数が所定値に達するまでの間、一定値に保持される。言い換えれば、行動価値関数Qの算出回数が所定値に達するまでの間、一定値に保持される。以上のように算出されたターゲット値T(st+1,at+1)は、誤差関数算出部16に出力される。なお、本実施形態では、ターゲット値算出部14が第2価値関数算出手段及び第2価値関数更新手段に相当し、ターゲット値Tが第2価値関数に相当する。
また、報酬算出部15では、状態の次回値st+1に基づき、所定の報酬算出アルゴリズムを用いて、報酬r(st+1)が算出され、これが誤差関数算出部16に出力される。
一方、誤差関数算出部16では、以上のように算出された各種の値に基づき、下式(3),(4)により、誤差関数Lが算出される。
上式(3)において、γは0<γ≦1が成立するように設定される割引率であり、上式(3)の右辺第1項は、行動価値関数QのTD誤差の2乗項である。また、右辺第2項のE(st+1,at+1)は、上式(4)に示すように定義される制約項であり、λは、調整パラメータである。この調整パラメータλは、値ε1を値0に近い正の所定値(例えば値0.0001)と規定した場合において、E(st+1,at+1)>ε1のときには、0<λ≦1が成立するように設定され、E(st+1,at+1)≦ε1のときには、λ=0に設定される。
本実施形態の場合、上式(3)を参照すると明らかなように、誤差関数Lは、行動価値関数QのTD誤差の2乗項と、調整パラメータと制約項の積λ・E(st+1,at+1)との和として算出される。
この制約項E(st+1,at+1)は、行動価値関数とターゲット値の差分{Q(st+1,at+1)−T(st+1,at+1)}の2乗項であるので、学習初期などの、TD誤差が大きくなり、行動価値関数Qの更新が不安定な状態になった際でも、その不安定な変動を、行動価値関数Qと、所定回数の間、更新されないニューラルネットワークを用いて算出したターゲット値との差分Q−Tを含む制約項Eによって抑制することができる。すなわち、一般的に、行動価値関数Qの学習が不安定になる、TD誤差が大きい条件下でも、学習を安定して実行することができる。言い換えれば、差分Q−Tは、TD誤差が大きい条件下では、ターゲット値Tとの距離によってその不安定さを抑制するとともに、TD誤差が小さい条件下では、制約項Eが小さくなることで、学習の抑制度合いが低下し、効率的な学習を実行できるような効果を発揮する。
それにより、前述した式(1)のような、TD誤差の2乗項のみを成分とする誤差関数Lを用いた場合と比べて、学習初期などの、TD誤差が大きくなり、第1価値関数の更新が不安定な状態になった際でも、その影響を制約項E(st+1,at+1)の効果によって緩和しながら、行動価値算出部11におけるQ算出用のニューラルネットワークのパラメータθを安定した状態で更新でき、学習の安定性を確保できることになる。
次に、図3を参照しながら、本実施形態の式(3),(4)に示す誤差関数Lを用いた場合と、前述した式(2)の誤差関数Lを用いた場合の行動価値関数Qの学習速度について説明する。同図において、実線で示す曲線は、本実施形態の式(3),(4)に示す誤差関数Lを用いて、スコア獲得形式の市販のコンピュータタスクを自動で学習した学習結果の一例を表している。
また、破線で示す曲線は、比較のために、前述した式(2)の誤差関数Lを用いたときの学習結果を表している。両者を比較すると明らかなように、本実施形態の誤差関数Lを用いた方が、前述した式(2)の誤差関数Lを用いたときよりもスコアの上昇勾配が大きくなっており、行動価値関数Qの学習速度が上昇していることが判る。これは、前述したように、式(2)の誤差関数Lの場合、ターゲット値TがTD誤差に含まれているのに対して、本実施形態の式(3),(4)の誤差関数Lの場合、ターゲット値TがTD誤差に含まれていないことによる。
次に、図4を参照しながら、学習制御について説明する。この学習制御は、前述した図2の算出手法によって、行動aを算出するとともに、Q算出用のニューラルネットワークのパラメータθを更新するものであり、ECU2によって、前述した所定の制御周期ΔTで実行される。
なお、以下の説明において算出される各種の値は、ECU2のE2PROM内に記憶されるものとする。また、以下の説明では、図6に示すように、自車両3が走行車線を走行中で、かつ先行車7a,7bが走行車線及び追い越し車線に存在する条件下において、先行車7aの追い越しを実行するときの学習制御の一例について説明する。
まず、状態sとしての、状況検出装置4からの状況データdata_sを読み込む(図4/STEP1)。この学習制御では、今回の制御タイミングで読み込まれた状況データdata_sの値を、状態の次回値st+1として用いるとともに、前回の制御タイミングで読み込まれた状況データdata_sの値を、状態の今回値sとして用いる。
次いで、前述したように、Q算出用のニューラルネットワークを用いて、状態の次回値st+1に基づき、n個の行動価値関数Q(st+1,aj+1)を算出するとともに、状態の今回値sに基づき、n個の行動価値関数Q(s,a)を算出する(図4/STEP2)。
次に、前述したように、n個の行動価値関数Q(s,a)に基づいて、ε-greedy法により、最適な行動aを決定する(図4/STEP3)。この場合の行動aは、自車両3の操舵量及び加減速度の指令値として決定される。
その後、前述したように、ターゲット値算出用のニューラルネットワークを用いて、ターゲット値T(st+1,at+1)を算出する(図4/STEP5)。
次いで、前述したように、所定の報酬算出アルゴリズムを用いて、報酬r(st+1)を算出する(図4/STEP6)。
次に、前述した式(3),(4)により、誤差関数Lを算出する(図4/STEP7)
そして、この誤差関数Lに基づき、前述したように、バックプロパゲーション法により、Q算出用のニューラルネットワークのパラメータθを更新する(図4/STEP8)。その際、パラメータθを更新回数が所定値に達したときには、その時点のパラメータθを更新用のパラメータθ ̄に設定する。以上のように、パラメータθを更新した後、本処理を終了する。
次に、図5を参照しながら、自動運転制御について説明する。この自動運転制御は、自車両3の運転状態を制御するものであり、ECU2によって、前述した所定の制御周期ΔT(所定周期)で実行される。なお、以下の説明では、前述した図6に示すように、先行車7aの追い越しを実行するときの自動運転制御の一例について説明する。
まず、E2PROM内に記憶されている行動a、すなわち自車両3の操舵量の指令値及び加減速度の指令値を読み込む(図5/STEP20)。なお、本実施形態では、操舵量の指令値及び加減速度の指令値が行動aに相当する。
次いで、自車両3の加減速度が読み込んだ指令値になるように、原動機5を駆動する(図5/STEP21)。
次に、自車両3の操舵量が読み込んだ指令値になるように、アクチュエータ6を駆動する(図5/STEP22)。その後、本処理を終了する。
以上のように、本実施形態の行動決定システム10によれば、環境9からの状態sを用いて、行動価値関数Qが算出され、行動価値関数Qを用いて、エージェントによる最適な行動aが決定される。さらに、式(3),(4)に示すように、誤差関数Lが、行動価値関数QのTD誤差と、行動価値関数Qとターゲット値Tとの差分の2乗項である制約項Eとを含むように定義され、この誤差関数Lが最小になるように、行動価値関数Qの算出に用いるニューラルネットワークのパラメータθが更新される。
このターゲット値Tの算出に用いるニューラルネットワークのパラメータθ ̄は、パラメータθの更新回数が所定値に達するまでの間に、更新されることなく一定値に保持されるので、前述した式(1)の誤差関数Lを用いた場合と比べて、TD誤差が大きく、行動価値関数Qの更新が不安定な状態にあるときでも、その影響を制約項Eの効果によって緩和しながら、ニューラルネットワークのパラメータθすなわち行動価値関数Qを更新することができ、学習の安定性を確保することができる。これに加えて、ターゲット値Tが誤差関数LのTD誤差に含まれていないので、前述した式(2)の誤差関数Lを用いた場合と比べて、行動価値関数Qの更新速度すなわち学習速度を向上させることができる。
また、行動価値関数Qという1つの関数の算出結果を用いて、最適な行動aを決定することができるので、複数の関数を用いる場合と比べて、演算負荷を低減することができる。さらに、行動価値関数Qを安定した状態で更新できることにより、学習を効率的に実行することができる。
さらに、本実施形態の自動運転制御装置1によれば、図4の学習制御において、以上のような行動決定システム10の手法を用いながら、自車両3の操舵量及び加減速度の指令値を最適な値に決定することができるので、自車両3の制御精度を向上させることができる。
なお、図4の学習制御は、行動aとして、自車両3の操舵量及び加減速度の指令値を決定した例であるが、これに代えて、行動aとして、自車両3の走行軌道を決定してもよい。その場合には、図5の自動運転制御において、決定された走行軌道で自車両3が走行するように、原動機5及びアクチュエータ6を制御すればよい。
また、第1実施形態は、行動価値関数算出部11において、行動価値関数Qをニューラルネットワークで近似して、行動価値関数Qの値を算出した例であるが、行動価値関数Qを近似する関数はこれに限定されるものではない。例えば、行動価値関数Qを近似する関数として、状態sを表す特徴ベクトルと基底関数の線形結合で表現したものを用いてもよい。その場合には、前述した式(3),(4)で定義される誤差関数Lの値が最小になるように、重みの値を更新すればよい。
さらに、第1実施形態は、本発明の行動決定システムを自動運転車両を制御する自動運転制御装置に適用した例であるが、本発明の行動決定システムはこれに限らず、様々な産業機器を制御するシステムに適用可能である。例えば、本発明の行動決定システムをロボットを制御するシステムに適用してもよく、自動運転される船舶などの産業機器を制御するシステムに適用してもよい。また、本発明の行動決定システムを、2,3輪タイプの自動運転車両や5輪以上の自動運転車両の制御に適用してもよい。
一方、第1実施形態は、所定手法として、ε-greedy法を用いた例であるが、本発明の 所定手法はこれに限らず、行動価値関数が最大となる行動を最適な行動として選択できるものであればよい。例えば、所定手法として、特定分布に基づくソフトマックス手法や、アニーリングを組み合わせた手法などを用いてもよい。
次に、図7を参照しながら、第2実施形態に係る自動運転制御装置1A(エージェント)について説明する。この自動運転制御装置1Aの場合、第1実施形態の自動運転制御装置1と比較して、図7に示す行動決定システム10Aの構成のみが異なっているので、以下、異なる点を中心に説明する。また、第1実施形態と同一の構成に対しては同じ符号を付すとともに、その説明を適宜、省略する。
この行動決定システム10Aの場合、前述した図2の行動決定システム10と比較すると明らかなように、行動決定システム10におけるターゲット値算出部14に代えて、ターゲット値算出部14Aを備えている点が異なっている。
このターゲット値算出部14Aでは、行動価値関数Qの近似関数として、パラメータが固定されたニューラルネットワークを用いて、ターゲット値Tref(st+1,at+1)が算出され、このターゲット値Tref(st+1,at+1)が誤差関数算出部16Aに出力される。
この場合、固定されたパラメータの値としては、他の自動運転制御装置において、Q算出用のニューラルネットワークのパラメータの学習が十分に進行した状態となっているときのパラメータの値が用いられる。なお、本実施形態では、ターゲット値Trefが固定された関数に相当する。
また、誤差関数算出部16Aでは、下式(5),(6)により、誤差関数Lが算出される。
以上のように、本実施形態の行動決定システム10Aによれば、誤差関数Lの制約項Eの算出において、ターゲット値Trefが用いられる。このターゲット値Trefは、パラメータが固定されたニューラルネットワークを用いて算出され、この固定されたパラメータは、他の自動運転制御装置において、Q算出用のニューラルネットワークのパラメータの学習が十分に進行した状態となっているときのパラメータの値であるので、TD誤差が大きく、行動価値関数Qの更新が不安定な状態になったときでも、その影響を制約項Eの効果によって緩和しながら、行動価値関数Qを安定した状態で更新することができ、学習の安定性を確保することができる。さらに、ターゲット値TrefがTD誤差に含まれていないので、前述した式(2)の誤差関数を用いた場合と比べて、行動価値関数Qの更新速度すなわち学習速度を向上させることができる。
なお、第2実施形態は、固定された関数として、ターゲット値Trefを用いた例であるが、本発明の固定された関数はこれに限らず、独立変数以外のパラメータが固定された関数であればよい。例えば、固定された関数を、複数の他の自動運転制御装置において、Q算出用のニューラルネットワークの学習が十分に進行したときのパラメータθの複数の値の平均値を算出し、この平均値をパラメータとするニューラルネットワークを用いて算出した値としてもよい。
次に、図8を参照しながら、第3実施形態に係る自動運転制御装置1B(エージェント)について説明する。この自動運転制御装置1Bの場合、第1実施形態の自動運転制御装置1と比較して、図8に示す行動決定システム10Bの構成のみが異なっているので、以下、異なる点を中心に説明する。また、第1実施形態と同一の構成に対しては同じ符号を付すとともに、その説明を適宜、省略する。
この行動決定システム10Bは、行動算出部20、行動価値算出部11B、ターゲット行動算出部21、ターゲット値算出部14B、報酬算出部15及び誤差関数算出部16Bを備えている。
この行動算出部20は、方策関数を用いて、行動aを算出するものである。この方策関数は、環境情報から最適な行動出力や、その確かさを算出ものであり、この行動算出部20では、方策関数の近似関数として、行動算出用のニューラルネットワーク(図示せず)が用いられる。この行動算出用のニューラルネットワークの場合、状態sを入力とし、行動aを出力とするものであり、具体的には、状態の今回値sを用いて行動aの今回値aが算出され、これが環境9及び行動価値算出部11Bに出力される。
さらに、行動算出用のニューラルネットワークでは、状態の次回値st+1を用いて、行動aの次回値at+1が算出され、これが行動価値算出部11Bに出力される。
これに加えて、行動算出部20では、バックプロパゲーション法により、行動価値算出部11Bから入力される行動価値関数Q(s,a)が最大になるように、行動算出用のニューラルネットワークのパラメータφ(重みなど)が前述した制御周期ΔTで更新されるとともに、その更新タイミングに同期して、更新されたパラメータφがターゲット行動算出部21に出力される。なお、本実施形態では、ECU2が方策関数更新手段に相当し、行動算出部20が行動決定手段及び方策関数更新手段に相当する。
また、行動価値算出部11Bは、ある状態sと、そのときに行った行動aの評価である行動価値関数Qを算出するものであり、状態価値関数としての行動価値関数Qを近似したQ算出用のニューラルネットワーク(図示せず)を備えている。この行動決定システム10Bの場合、行動算出部20及び行動価値算出部11Bを組み合わせて用いることで、状態の今回値stから行動価値関数Q(st,at)が算出され、これが誤差関数算出部16B及び行動算出部20に出力される。
さらに、このQ算出用のニューラルネットワークでは、状態の次回値st+1を用いて、行動価値関数Q(st+1,at+1)が算出され、これが誤差関数算出部16Bに出力される。
これに加えて、行動価値算出部11Bでは、前述した行動価値算出部11と同様に、バックプロパゲーション法により、誤差関数算出部16Bから入力される誤差関数Lが最小になるように、Q算出用のニューラルネットワークのパラメータθが前述した制御周期ΔTで更新されるとともに、その更新タイミングに同期して、更新されたパラメータθがターゲット行動算出部21に出力される。なお、本実施形態では、行動価値算出部11Bが第1価値関数算出手段及び第1価値関数更新手段に相当する。
一方、前述したターゲット行動算出部21は、ターゲット行動aを算出するものであり、状態sを入力とし、ターゲット行動aを出力とするターゲット行動算出用のニューラルネットワーク(図示せず)を備えている。このターゲット行動算出用のニューラルネットワークでは、状態の次回値st+1を用いてターゲット行動at+1Tが算出され、これがターゲット値算出部14Bに出力される。
さらに、ターゲット行動算出部21では、ターゲット行動算出用のニューラルネットワークのパラメータφ ̄が、行動算出部20から入力されるパラメータφを用いて、下式(7)に示す加重平均演算により前述した制御周期ΔTで更新される。
上式(7)のβは、重み係数であり、値0に近い正の所定値(例えば値0.001)に設定される。
また、ターゲット値算出部14Bでは、ターゲット値算出用のニューラルネットワークを用いて、ターゲット値T(st+1,at+1T)が算出される。このターゲット値算出用のニューラルネットワークは、状態の次回値st+1及びターゲット行動at+1Tが入力されたときに、ターゲット値T(st+1,at+1T)を出力するように構成されている。
このターゲット値算出用のニューラルネットワークのパラメータθ ̄は、行動価値算出部11Bから入力されるパラメータθを用いて、下式(8)に示す加重平均演算により前述した制御周期ΔTで更新される。
なお、本実施形態では、ターゲット値算出部14Bが第2価値関数算出手段及び第2価値関数更新手段に相当し、ターゲット値Tが第2価値関数に相当する。
さらに、誤差関数算出部16Bでは、以上のように算出された各種の値に基づき、下式(9),(10)により、誤差関数Lが算出される。
なお、上式(9)の最大値maxat+1Q(st+1,at+1)としては、行動価値関数Q(st+1,at+1)の値が用いられる。このように最大値maxat+1Q(st+1,at+1)を設定する理由は、方策関数を用いて算出されたat+1は、最適な出力であるという仮定に基づくものである。
以上のように、本実施形態の行動決定システム10Bによれば、行動算出部20で、ニューラルネットワークで近似した方策関数を用いて、行動aが算出され、行動価値算出部11Bで、ニューラルネットワークで近似した状態価値関数を用いて、行動価値関数Qが算出される。このように、方策関数及び状態価値関数を別個に用いることができるので、方策関数を学習する際の任意性を向上させることができ、連続空間や高次元空間に対応できるとともに、エージェントによる探索行動のコントロールを容易に実行することができる。さらに、誤差関数Lが最小になるように、状態価値関数が更新されるとともに、状態価値関数が最大となるように、方策関数が更新されるので、方策関数を、その挙動が不安定になるのを抑制しながら安定した状態で更新することができる。
なお、第3実施形態は、状態価値関数が最大となるように、方策関数を更新した例であるが、これに代えて、状態価値関数及びアドバンテージ関数の双方が最大になるように、方策関数を更新するように構成してもよい。
次に、図9を参照しながら、第4実施形態に係る自動運転制御装置1C(エージェント)について説明する。この自動運転制御装置1Cの場合、第1実施形態の自動運転制御装置1と比較して、図9に示す行動決定システム10Cの構成のみが異なっているので、以下、異なる点を中心に説明する。
この行動決定システム10Cは、行動価値算出部11C、方策算出部12C、最大値選択部13C、ターゲット値算出部14C、報酬算出部15C及び誤差関数算出部16Cを備えている。
この行動価値算出部11Cは、Q算出用のニューラルネットワーク及び記憶部を備えている。この記憶部は、経験メモリタイプのものであり、値iをi=1〜m(mは複数)と規定したときに、合計m+1回の制御タイミングで環境9からそれぞれ入力されたm+1個の状態の時系列離散データs〜st+iを記憶する。さらに、行動価値算出部11Cは、記憶部内の最新の値st+mをターゲット値算出部14Cに出力する。
また、Q算出用のニューラルネットワークでは、記憶部内のm個の状態の時系列離散データst+i−1を用いて、m×n個の行動価値関数Q(st+i−1,a)が算出され、これらの値が方策算出部12Cに出力される。
さらに、このQ算出用のニューラルネットワークでは、記憶部内の最新の値st+mを用いて、n個の行動価値関数Q(st+m,a)が算出され、これらの値が最大値選択部13Cに出力される。
これに加えて、行動価値算出部11Cでは、バックプロパゲーション法により、誤差関数算出部16Cから入力される誤差関数Lが最小になるように、Q算出用のニューラルネットワークのパラメータθが前述した制御周期ΔTで更新される。
さらに、このパラメータθの更新回数が前述した所定値に達する毎に、その時点のパラメータθが、更新用のパラメータθ ̄としてターゲット値算出部14Cに出力される。なお、本実施形態では、行動価値算出部11Cが第1価値関数算出手段及び第1価値関数更新手段に相当する。
また、方策算出部12C(行動決定手段)では、行動価値算出部11Cから入力されるm×n個の行動価値関数Q(st+i−1,a)に基づいて、前述したε-greedy法により、行動aが選択されるとともに、選択された行動aが環境9に出力される。さらに、選択された行動aに対応する行動価値関数Q(s,a)が、誤差関数算出部16Cに出力される。
さらに、最大値選択部13Cでは、行動価値算出部11Cから入力されたn個の行動価値関数Q(st+m,a)を比較し、これらの中から最大値maxat+1Q(st+m,at+m)を選択した後、選択された最大値maxat+1Q(st+m,at+m)が誤差関数算出部16Cに出力される。これに加えて、選択された最大値maxat+mQ(st+m,at+m)に対応する行動at+mがターゲット値算出部14Cに出力される。
一方、ターゲット値算出部14Cは、ターゲット値算出用のニューラルネットワークを備えており、このターゲット値算出用のニューラルネットワークは、状態の最新値st+m及び最大値maxat+mQ(st+m,at+m)に対応する行動at+mを用いてターゲット値T(st+m,at+m)を算出し、これを誤差関数算出部16Cに出力する。
また、このターゲット値算出用のニューラルネットワークのパラメータ(重み)θ ̄は、前述したように、行動価値算出部11Cから入力される更新用のパラメータθ ̄に設定される。なお、本実施形態では、ターゲット値算出部14Cが第2価値関数算出手段及び第2価値関数更新手段に相当する。
さらに、報酬算出部15Cは、行動価値算出部11Cの記憶部と同様の、経験メモリタイプの記憶部を備えている。この報酬算出部15Cでは、記憶部に記憶されているm個の状態の時系列離散データst+iに基づき、所定の報酬算出アルゴリズムを用いて、報酬r(st+i)が算出され、これが誤差関数算出部16Cに出力される。
さらに、誤差関数算出部16Cでは、以上のように算出された各種の値に基づき、下式(11),(12)により、誤差関数Lが算出される。
以上のように、本実施形態の行動決定システム10Cによれば、誤差関数LのTD誤差が、m+1回の行動a〜at+mを実行した結果のm個の報酬の時系列離散データr(st+i)を含むように算出され、この誤差関数Lが最小になるように、行動価値関数Q算出用のニューラルネットワークが更新されるので、1つの状態の時系列離散データsを用いた場合と比べて、過去に行った行動aの(行動価値関数Qによる)評価をより迅速に行動価値関数Qの更新に反映させることができ、学習速度をさらに向上させることができる。
1 自動運転制御装置(エージェント)
2 ECU(第1価値関数算出手段、行動決定手段、第1価値関数更新手段、第2価 値関数算出手段、第2価値関数更新手段、方策関数更新手段)
3 自動運転車両
9 環境
10 行動決定システム
11 行動価値算出部(第1価値関数算出手段、第1価値関数更新手段)
12 方策算出部(行動決定手段)
14 ターゲット値算出部(第2価値関数算出手段、第2価値関数更新手段)
1A 自動運転制御装置(エージェント)
10A 行動決定システム
1B 自動運転制御装置(エージェント)
10B 行動決定システム
11B 行動価値算出部(第1価値関数算出手段、第1価値関数更新手段)
14B ターゲット値算出部(第2価値関数算出手段、第2価値関数更新手段)
20 行動算出部(行動決定手段、方策関数更新手段)
1C 自動運転制御装置(エージェント)
10C 行動決定システム
11C 行動価値算出部(第1価値関数算出手段、第1価値関数更新手段)
12C 方策算出部(行動決定手段)
14C ターゲット値算出部(第2価値関数算出手段、第2価値関数更新手段)
Q 行動価値関数(第1価値関数)
a 行動
s 状態(情報)
data_s 状況データ(情報、状態)
L 誤差関数
T ターゲット値(第2価値関数)
ε1 所定値
Tref ターゲット値(第2価値関数、固定された関数)
ΔT 制御周期(所定周期)

Claims (8)

  1. 強化学習法を用いてエージェントによる行動を決定する行動決定システムにおいて、
    環境から前記エージェントに入力される情報を用いて、第1価値関数を算出する第1価値関数算出手段と、
    当該第1価値関数を用いて、前記エージェントによる最適な行動を決定する行動決定手段と、
    前記第1価値関数のTD誤差と、前記第1価値関数と当該第1価値関数の目標となる値を算出する関数である第2価値関数との差分と、を含むように定義された誤差関数が最小になるように、前記第1価値関数を更新する第1価値関数更新手段と、
    を備えることを特徴とする行動決定システム。
  2. 前記第1価値関数更新手段は、前記誤差関数として、前記差分が所定値を超えているときには、前記TD誤差と前記差分を含むように定義された誤差関数を用い、前記差分が所定値以下のときには、前記TD誤差のみを含むように定義された誤差関数を用いることを特徴とする請求項1に記載の行動決定システム。
  3. 前記情報を用いて、前記第2価値関数を算出する第2価値関数算出手段と、
    前記第2価値関数を前記第1価値関数よりも遅い更新速度で更新する第2価値関数更新手段と、
    をさらに備えることを特徴とする請求項1又は2に記載の行動決定システム。
  4. 前記第2価値関数として固定された関数を用いることを特徴とする請求項1又は2に記載の行動決定システム。
  5. 前記情報は、前記環境の状態であり、
    前記第1価値関数は、前記環境の状態及び前記行動を評価するための行動価値関数であり、
    前記行動決定手段は、所定手法を用いて、前記行動価値関数に基づき、前記最適な行動を決定することを特徴とする請求項1ないし4のいずれかに記載の行動決定システム。
  6. 前記情報は、前記環境の状態であり、
    前記第1価値関数は、前記環境の状態を評価するための状態価値関数と前記行動を評価するための方策関数とを含み、
    前記行動決定手段は、前記方策関数を用いて、前記最適な行動を決定し、
    前記第1価値関数更新手段は、前記誤差関数が最小になるように、前記状態価値関数を更新し、
    前記状態価値関数が最大となるように、前記方策関数を更新する方策関数更新手段をさらに備えることを特徴とする請求項1ないし4のいずれかに記載の行動決定システム。
  7. 前記情報は、前記エージェントが所定周期で前記最適な行動を複数回、実行したときに、前記環境から当該所定周期で入力される前記情報の複数の時系列離散データであり、
    前記第1価値関数のTD誤差は、前記情報の複数の時系列離散データを用いて算出した報酬の複数の時系列離散データを含むように構成されていることを特徴とする請求項1ないし6のいずれかに記載の行動決定システム。
  8. 請求項1ないし7のいずれかに記載の行動決定システムを備え、自動運転車両を制御する自動運転制御装置において、
    前記情報は、前記自動運転車両の動作状況及び動作環境を表す状況データであり、
    前記行動は、前記自動運転車両を制御するための目標値又は指令値であることを特徴とする自動運転制御装置。
JP2017215645A 2017-11-08 2017-11-08 行動決定システム及び自動運転制御装置 Active JP6845529B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017215645A JP6845529B2 (ja) 2017-11-08 2017-11-08 行動決定システム及び自動運転制御装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017215645A JP6845529B2 (ja) 2017-11-08 2017-11-08 行動決定システム及び自動運転制御装置

Publications (2)

Publication Number Publication Date
JP2019087096A JP2019087096A (ja) 2019-06-06
JP6845529B2 true JP6845529B2 (ja) 2021-03-17

Family

ID=66763111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017215645A Active JP6845529B2 (ja) 2017-11-08 2017-11-08 行動決定システム及び自動運転制御装置

Country Status (1)

Country Link
JP (1) JP6845529B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020182576A (ja) * 2019-04-30 2020-11-12 株式会社大一商会 遊技機
JP2020182575A (ja) * 2019-04-30 2020-11-12 株式会社大一商会 遊技機
JP7342491B2 (ja) 2019-07-25 2023-09-12 オムロン株式会社 推論装置、推論方法、及び推論プログラム
WO2021090413A1 (ja) * 2019-11-06 2021-05-14 日本電信電話株式会社 制御装置、制御システム、制御方法及びプログラム
JP7357537B2 (ja) 2019-12-24 2023-10-06 本田技研工業株式会社 制御装置、制御装置の制御方法、プログラム、情報処理サーバ、情報処理方法、並びに制御システム
CN111746633B (zh) * 2020-07-02 2022-06-17 南京航空航天大学 一种基于强化学习的车辆分布式转向驱动系统控制方法
CN111731326B (zh) * 2020-07-02 2022-06-21 知行汽车科技(苏州)有限公司 避障策略确定方法、装置及存储介质
JP7469167B2 (ja) * 2020-07-07 2024-04-16 本田技研工業株式会社 制御装置及び制御方法並びに車両
US20230394970A1 (en) * 2020-10-28 2023-12-07 Nec Corporation Evaluation system, evaluation method, and evaluation program
CN112926629B (zh) * 2021-01-29 2024-04-02 北京字节跳动网络技术有限公司 超参数确定方法、装置、深度强化学习框架、介质及设备
KR102631402B1 (ko) * 2021-06-14 2024-01-31 숭실대학교 산학협력단 자율주행차량을 위한 심층강화학습 기반 차선 변경 방법, 이를 수행하기 위한 기록 매체 및 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5330138B2 (ja) * 2008-11-04 2013-10-30 本田技研工業株式会社 強化学習システム
JP5733166B2 (ja) * 2011-11-14 2015-06-10 富士通株式会社 パラメータ設定装置、コンピュータプログラム及びパラメータ設定方法
JP2019518273A (ja) * 2016-04-27 2019-06-27 ニューララ インコーポレイテッド 深層ニューラルネットワークベースのq学習の経験メモリをプルーニングする方法及び装置

Also Published As

Publication number Publication date
JP2019087096A (ja) 2019-06-06

Similar Documents

Publication Publication Date Title
JP6845529B2 (ja) 行動決定システム及び自動運転制御装置
JP6494872B2 (ja) 車両の運動を制御する方法、及び車両の制御システム
EP3579211B1 (en) Method and vehicle for assisting an operator of an ego-vehicle in controlling the ego-vehicle by determining a future behavior and an associated trajectory for the ego-vehicle
Akametalu et al. Reachability-based safe learning with Gaussian processes
JP6550678B2 (ja) 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム
JP6937658B2 (ja) 予測制御装置及び方法
EP3678060A1 (en) Control device, unmanned system, control method, and program
WO2018220418A1 (en) Driving assistance method and system
JP7215077B2 (ja) 予測プログラム、予測方法及び予測装置
JP6840363B2 (ja) ネットワーク学習装置、行動決定装置、ネットワーク学習方法、及びプログラム
Okamoto et al. Data-driven human driver lateral control models for developing haptic-shared control advanced driver assist systems
EP3961598A1 (en) Method and system for enabling cooperative coordination between autonomously acting entities
KR20210048969A (ko) 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템
Ure et al. Enhancing situational awareness and performance of adaptive cruise control through model predictive control and deep reinforcement learning
JP7125286B2 (ja) 行動予測装置及び自動運転装置
Kubota et al. Learning of mobile robots using perception-based genetic algorithm
CN110879595A (zh) 一种基于深度强化学习的无人矿卡循迹控制系统及方法
US11579574B2 (en) Control customization system, control customization method, and control customization program
Bouton et al. Utility decomposition with deep corrections for scalable planning under uncertainty
US20210350231A1 (en) Predicting a state of a computer-controlled entity
McKinnon et al. Meta learning with paired forward and inverse models for efficient receding horizon control
KR102376615B1 (ko) 주행 로봇의 제어 방법 및 그 장치
JP2019199185A (ja) 車両制御値決定装置、車両制御値決定方法、およびプログラム
Zakaria et al. A study of multiple reward function performances for vehicle collision avoidance systems applying the DQN algorithm in reinforcement learning
Homann et al. Multi stage model predictive trajectory set approach for collision avoidance

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201013

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201014

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210212

R150 Certificate of patent or registration of utility model

Ref document number: 6845529

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250