JP6845529B2

JP6845529B2 - 行動決定システム及び自動運転制御装置

Info

Publication number: JP6845529B2
Application number: JP2017215645A
Authority: JP
Inventors: 康輔中西; 安井　裕司; 裕司安井; 祐紀喜住; 翔太大西; 石井　信; 信石井
Original assignee: Honda Motor Co Ltd; Kyoto University
Current assignee: Honda Motor Co Ltd; Kyoto University
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2021-03-17
Anticipated expiration: 2037-11-08
Also published as: JP2019087096A

Description

本発明は、強化学習法を用いてエージェントによる行動を決定する行動決定システム、及びこれを備えた自動運転制御装置に関する。

従来、強化学習法を用いた行動決定システムとして、特許文献１に記載されたものが知られている。この行動決定システムでは、複数の利用者の発言を状態ｓ、発言に対する応答を行動ａ、報酬をｒとして、報酬ｒが最大になるように、行動価値関数Ｑを定義し（同文献の式４）、この行動価値関数Ｑを用いて強化学習を実行する。そして、学習結果に基づいて、行動ａを算出し、これを応答として、ロボットに読み出させている。

このように行動価値関数Ｑを用いて強化学習を実行する場合、行動価値関数Ｑをニューラルネットワークで近似するとともに、誤差関数ＬをＴＤ誤差に基づいて定義し、これが最小になるように、ニューラルネットワークを更新する手法が知られている。この場合、一般的なＱ学習法では、誤差関数Ｌとして、下式（１）に示すものが用いられる。

この式（１）において、θはニューラルネットワークのパラメータ（重みなど）を、ｓ’は状態の次回値をそれぞれ表している。また、γは０＜γ≦１が成立するように設定される割引率である。

しかし、上式（１）に示す誤差関数Ｌを用いた場合、更新の目標となる行動価値関数もステップ毎の更新によって変動する関係上、ニューラルネットワークの更新が不安定になり、学習が不安定になってしまう。この問題を回避するために、Fixed Target Q-Network法では、誤差関数Ｌとして、下式（２）に示すように、行動価値関数Ｑに代えて、Target Q-Networkの出力値（以下「ターゲット値」という）ＴをＴＤ誤差の期待報酬に含むように定義されたものが用いられる（非特許文献１，２）。

特開２０１７−１７３８７４号公報 "Human-level control through deep reinforcement learning", [online], [平成29年11月2日検索], インターネット<URL:http://www.teach.cs.toronto.edu/~csc2542h/fall/material/csc2542f16_dqn.pdf> "Deep Reinforcement Learning with Double Q-learning", [online], [平成29年11月2日検索], インターネット<URL:https://arxiv.org/pdf/1509.06461.pdf>

上記式（２）に示す誤差関数Ｌを用いて、ニューラルネットワークを更新した場合、所定回数の学習が実行されるまでの間、ターゲット値Ｔが更新されることなく保持されるので、行動価値関数の更新の目標となる値が固定化されることによって、学習の安定性を確保することができる。しかしながら、ニューラルネットワークの更新速度が抑制されてしまうことによって、学習速度が低下するという問題がある。

本発明は、上記課題を解決するためになされたもので、強化学習法を用いる場合において、学習の安定性を確保しながら、学習速度を向上させることができる行動決定システム及び自動運転制御装置を提供することを目的とする。

上記目的を達成するために、本発明は、強化学習法を用いてエージェント（自動運転制御装置１，１Ａ〜１Ｃ）による行動ａを決定する行動決定システム１０，１０Ａ〜１０Ｃにおいて、環境９からエージェントに入力される情報（状態ｓ、状況データｄａｔａ＿ｓ）を用いて、第１価値関数（行動価値関数Ｑ）を算出する第１価値関数算出手段（ＥＣＵ２、行動価値算出部１１，１１Ｂ，１１Ｃ）と、第１価値関数を用いて、エージェントによる最適な行動を決定する行動決定手段（ＥＣＵ２、方策算出部１２，１２Ｃ、行動算出部２０）と、第１価値関数のＴＤ誤差（式（３），（５），（９），（１１）の右辺第１項の｛｝内の値）と、第１価値関数と第１価値関数の目標となる値を算出する関数である第２価値関数（ターゲット値Ｔ）との差分（式（４），（６），（１０），（１２）の右辺第１項の｛｝内の値）と、を含むように定義された誤差関数Ｌが最小になるように、第１価値関数を更新する第１価値関数更新手段（ＥＣＵ２、行動価値算出部１１，１１Ｂ，１１Ｃ）と、を備えることを特徴とする。

この行動決定システムによれば、環境からエージェントに入力される情報を用いて、第１価値関数が算出され、第１価値関数を用いて、エージェントによる最適な行動が決定される。さらに、第１価値関数のＴＤ誤差と、第１価値関数と第１価値関数の目標となる値を算出する関数である第２価値関数との差分を含むように定義された誤差関数が最小になるように、第１価値関数が更新されるので、前述した式（１）の誤差関数を用いた場合と比べて、学習初期などの、ＴＤ誤差が大きくなり、第１価値関数の更新が不安定な状態になった際でも、その影響を第１価値関数と第２価値関数との差分によって緩和しながら、第１価値関数を更新することができ、学習の安定性を確保することができる。これに加えて、前述した式（２）の誤差関数と異なり、ターゲット値Ｔが誤差関数のＴＤ誤差に含まれていないので、第１価値関数の更新速度すなわち学習速度を向上させることができる（なお、本明細書における「第１価値関数を算出する」ということは、独立変数の値を第１価値関数に代入することにより、従属変数としての第１価値関数の値を算出／設定することを意味する。また、本明細書における「第１価値関数を更新する」ということは、第１価値関数における独立変数以外のパラメータ成分を更新することを意味する）。

本発明において、第１価値関数更新手段は、誤差関数として、差分が所定値ε１を超えているときには、ＴＤ誤差と差分を含むように定義された誤差関数を用い、差分が所定値ε１以下のときには、ＴＤ誤差のみを含むように定義された誤差関数を用いることが好ましい。

この制御装置によれば、差分が所定値以下のときには、ＴＤ誤差のみを含むように定義された誤差関数を用いて、第１価値関数が更新されるので、ＴＤ誤差のみを減少するように第１価値関数を更新することができ、その更新速度を向上させることができる。

本発明において、情報（状態ｓ、状況データｄａｔａ＿ｓ）を用いて、第２価値関数（ターゲット値Ｔ）を算出する第２価値関数算出手段（ＥＣＵ２、ターゲット値算出部１４，１４Ｂ，１４Ｃ）と、第２価値関数（ターゲット値Ｔ）を第１価値関数（行動価値関数Ｑ）よりも遅い更新速度で更新する第２価値関数更新手段（ＥＣＵ２、ターゲット値算出部１４，１４Ｂ，１４Ｃ）と、をさらに備えることが好ましい。

この制御装置によれば、第２価値関数が、情報を用いて算出されるとともに、第１価値関数よりも遅い更新速度で更新されるので、ＴＤ誤差の挙動が不安定な状態になったときでも、その影響を第１価値関数と第２価値関数の差分によって緩和しながら、第１価値関数を安定した状態で更新することができ、学習の安定性を確保することができる。さらに、第１価値関数よりも遅い更新速度で更新される第２価値関数がＴＤ誤差に含まれていないので、前述した式（２）の誤差関数を用いた場合と比べて、第１価値関数の更新速度すなわち学習速度を向上させることができる。

本発明において、第２価値関数として固定された関数（ターゲット値Ｔｒｅｆ）を用いることが好ましい。

この制御装置によれば、第２価値関数として固定された関数が用いられるので、この固定された関数を適切なもの（例えば他のシステムで学習済みの第２価値関数）に設定することにより、ＴＤ誤差の挙動が不安定な状態になったときでも、その影響を第１価値関数と第２価値関数の差分によって緩和しながら、第１価値関数を安定した状態で更新することができ、学習の安定性を確保することができる。さらに、一定値に設定された第２価値関数がＴＤ誤差に含まれていないので、前述した式（２）の誤差関数を用いた場合と比べて、第１価値関数の更新速度すなわち学習速度を向上させることができる（なお、本明細書における「固定された関数」は、独立変数以外の値が固定された形式の関数を意味する）。

本発明において、情報は、環境９の状態ｓであり、第１価値関数は、環境９の状態ｓ及び行動ａを評価するための行動価値関数Ｑであり、行動決定手段は、所定手法（ε-greedy法）を用いて、行動価値関数に基づき、最適な行動ａを決定することが好ましい。

この制御装置によれば、行動価値関数という１つの関数の算出結果を用いて、最適な行動を決定することができるので、複数の関数を用いる場合と比べて、演算負荷を低減することができる。さらに、前述したように、行動価値関数を安定した状態で更新できることにより、学習を効率的に実行することができる。

本発明において、情報は、環境９の状態であり、第１価値関数は、環境９の状態を評価するための状態価値関数と行動を評価するための方策関数とを含み、行動決定手段は、方策関数を用いて、最適な行動ａを決定し、第１価値関数更新手段は、誤差関数Ｌが最小になるように、状態価値関数を更新し、状態価値関数が最大となるように、方策関数を更新する方策関数更新手段（ＥＣＵ２、行動算出部２０）をさらに備えることが好ましい。

この制御装置によれば、第１価値関数が、環境の状態を評価するための状態価値関数と行動を評価するための方策関数とを含んでいるので、方策関数を学習する際の任意性を向上させることができ、連続空間や高次元空間に対応できるとともに、エージェントによる探索行動のコントロールを容易に実行することができる。さらに、誤差関数が最小になるように、状態価値関数が更新され、状態価値関数が最大となるように、方策関数が更新されるので、方策関数を、その挙動が不安定になるのを抑制しながら安定した状態で更新することができる。

本発明において、情報は、エージェントが所定周期（制御周期ΔＴ）で最適な行動ａを複数回、実行したときに、環境９から所定周期で入力される情報の複数の時系列離散データｓ_ｔ＋ｉであり、第１価値関数のＴＤ誤差は、情報の複数の時系列離散データｓ_ｔ＋ｉを用いて算出した報酬の複数の時系列離散データｒ（ｓ_ｔ＋ｉ）を含むように構成されていることが好ましい。

この制御装置によれば、情報の複数の時系列離散データを用いて、第１価値関数の複数の時系列離散データが算出され、第１価値関数のＴＤ誤差は、情報の複数の時系列離散データを用いて算出した報酬の複数の時系列離散データを含むように構成されており、そのようなＴＤ誤差を含むように定義された誤差関数が最小になるように、第１価値関数が更新されるので、１つの情報の時系列離散データを用いた場合と比べて、過去に行った行動の第１価値関数による評価をより迅速に第１価値関数の更新に反映させることができ、その更新作業がより促進されることで、学習速度をさらに向上させることができる。

本発明は、上記の行動決定システムシステム１０，１０Ａ〜１０Ｃを備え、自動運転車両３を制御する自動運転制御装置１，１Ａ〜１Ｃにおいて、情報は、自動運転車両３の動作状況及び動作環境を表す状況データｄａｔａ＿ｓであり、行動は、自動運転車両３を制御するための目標値又は指令値であることが好ましい。

この制御装置によれば、自動運転車両の動作状況及び動作環境を表す状況データを用いて、第１価値関数が算出され、第１価値関数を用いて、自動運転車両を制御するための目標値又は指令値が最適な値に決定されるので、自動運転車両の制御精度を向上させることができる。

本発明の第１実施形態に係る自動運転制御装置及び行動決定システムと、これらを適用した自動運転車両の構成を模式的に示す図である。第１実施形態の行動決定システムの機能的な構成を示すブロック図である。第１実施形態の誤差関数を用いた場合と、従来の誤差関数を用いた場合の行動価値関数の学習速度を説明するための図である。学習制御を示すフローチャートである。自動運転制御を示すフローチャートである。自動運転車両が追い越しを実行するときの状態を示す図である。第２実施形態の行動決定システムの機能的な構成を示すブロック図である。第３実施形態の行動決定システムの機能的な構成を示すブロック図である。第４実施形態の行動決定システムの機能的な構成を示すブロック図である。

以下、図面を参照しながら、本発明の第１実施形態に係る自動運転制御装置及び行動決定システムについて説明する。本実施形態の自動運転制御装置は、後述する行動決定システムを備えており、まず、自動運転制御装置について説明する。なお、本実施形態では、自動運転制御装置がエージェントに相当する。

図１に示すように、この自動運転制御装置１は、四輪タイプの自動運転車両３に適用されたものであり、ＥＣＵ２を備えている。なお、以下の説明では、この自動運転車両３を「自車両３」という。

このＥＣＵ２には、状況検出装置４、原動機５及びアクチュエータ６が電気的に接続されている。この状況検出装置４は、カメラ、ミリ波レーダー、レーザーレーダ、ソナー、ＧＰＳ及び各種のセンサなどで構成されており、自車両３の動作状況及び動作環境を表す状況データｄａｔａ＿ｓをＥＣＵ２に出力する。なお、本実施形態では、状況データｄａｔａ＿ｓが情報及び環境の状態に相当する。

この場合、状況データｄａｔａ＿ｓは、車速、操舵角、ヨーレート、加速度、躍度、道路端の座標、他車両との相対位置及び他車両との相対速度などを含む数十種類のデータで構成されている。

原動機５は、例えば、電気モータなどで構成されており、後述するように、ＥＣＵ２によって自動運転制御が実行される際、原動機５の動作状態が制御される。

また、アクチュエータ６は、制動用アクチュエータ及び操舵用アクチュエータなどで構成されており、後述するように、自動運転制御を実行するときに、アクチュエータ６の動作が制御される。

一方、ＥＣＵ２は、ＣＰＵ、ＲＡＭ、ＲＯＭ、Ｅ２ＰＲＯＭ、Ｉ／Ｏインターフェース及び各種の電気回路（いずれも図示せず）などからなるマイクロコンピュータで構成されており、上述した状況検出装置４からの状況データｄａｔａ＿ｓなどに基づいて、後述するように、自動運転制御などを実行する。

なお、本実施形態では、ＥＣＵ２が第１価値関数算出手段、行動決定手段、第１価値関数更新手段、第２価値関数算出手段及び第２価値関数更新手段に相当する。

次に、図２を参照しながら、本実施形態の自動運転制御装置１における行動決定システム１０について説明する。同図において、環境９は、情報としての行動ａ_ｔが入力されたときに、状態ｓ_ｔ＋1を出力する系であり、この行動決定システム１０では、環境９から入力される状態ｓ_ｔ，ｓ_ｔ＋1を用いて、以下に述べる算出アルゴリズムにより、行動ａ_ｔが算出される。

ここで、状態ｓ_ｔ及び行動ａ_ｔは、後述する所定の制御周期ΔＴ（例えば１０ｍｓｅｃ）に同期してサンプリング又は算出された離散データであり、状態ｓ_ｔ及び行動ａ_ｔの添字ｔ（ｔは正の整数）は、離散データの制御時刻（すなわちサンプリング／算出タイミング）を表している。

具体的には、状態ｓ_ｔの添字ｔは、今回の制御タイミングでサンプリング／算出された値（以下「今回値」という）であることを、状態ｓ_ｔ＋1の添字ｔ＋１は、次回の制御タイミングでサンプリング／算出されると推定される値（以下「次回値」という）であることをそれぞれ示している。この点は、以下に述べる離散データにおいても同様である。

なお、実際の制御では、状態の次回値ｓ_ｔ＋1は、今回の制御タイミングでサンプリング／算出することはできないので、今回の制御タイミングでサンプリング／算出された状態ｓの値が状態の次回値ｓ_ｔ＋1として用いられるとともに、前回の制御タイミングでサンプリング／算出された状態の次回値ｓ_ｔ＋1が状態の今回値ｓ_ｔとして用いられる。また、以下の説明では、各離散データにおける添字を適宜省略する。

図２に示すように、行動決定システム１０は、行動価値算出部１１、方策算出部１２、最大値選択部１３、ターゲット値算出部１４、報酬算出部１５及び誤差関数算出部１６を備えている。この行動決定システム１０の場合、これらの要素１１〜１６は、具体的にはＥＣＵ２によって構成されており、この点は後述する行動決定システム１０Ａ〜１０Ｃにおいても同様である。

この行動価値算出部１１は、行動価値関数Ｑを算出するものであり、状態ｓを入力とし、行動価値関数Ｑを出力とするＱ算出用のニューラルネットワーク（図示せず）を備えている。このＱ算出用のニューラルネットワークでは、値ｊをｊ＝１〜ｎ（ｎは複数）と規定したときに、状態の今回値ｓ_ｔを用いて、ｎ個の行動価値関数Ｑ（ｓ_ｔ，ａ_ｊ）が算出され、これが方策算出部１２に出力される。

さらに、このＱ算出用のニューラルネットワークでは、状態の次回値ｓ_ｔ＋1を用いて、ｎ個の行動価値関数Ｑ（ｓ_ｔ＋1，ａ_ｊ＋１）が算出され、これが最大値選択部１３に出力される。

これに加えて、行動価値算出部１１では、誤差関数算出部１６から入力される誤差関数Ｌに基づいて、バックプロパゲーション法をはじめとする勾配法によって誤差勾配を計算し、誤差関数Ｌが最小になるように、Ｑ算出用のニューラルネットワークのパラメータθ（重みなど）が前述した制御周期ΔＴで更新される。

さらに、このパラメータθの更新回数が所定値（例えば値１００００）に達する毎に、その時点のパラメータθが、更新用のパラメータθ￣としてターゲット値算出部１４に出力される。なお、本実施形態では、行動価値算出部１１が第１価値関数算出手段及び第１価値関数更新手段に相当し、行動価値関数Ｑが第１価値関数に相当する。

また、方策算出部１２では、行動価値算出部１１から入力される行動価値関数のｎ個の値Ｑ（ｓ_ｔ，ａ_ｊ）に基づいて、ε-greedy法（所定手法）により、最適な行動ａ_ｔが決定される。すなわち、行動価値関数Ｑ（ｓ_ｔ，ａ_ｊ）が最大となる行動ａ_ｊを最適な行動ａ_ｔとして値１−εの確率で選択するとともに、ｎ個の行動ａ_ｊから行動ａ_ｔを値εの確率でランダムに選択される。

この場合、値εは０＜ε＜１が成立するように設定される。そして、方策算出部１２では、選択された最適な行動ａ_ｔが環境９に出力され、選択された行動ａ_ｔに対応する行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）が、誤差関数算出部１６に出力される。なお、本実施形態では、方策算出部１２が行動決定手段に相当する。

さらに、最大値選択部１３では、行動価値算出部１１から入力された行動価値関数のｎ個の値Ｑ（ｓ_ｔ＋1，ａ_ｊ＋１）を比較し、これらの中から最大値ｍａｘ_ａｔ＋１Ｑ（ｓ_ｔ＋1，ａ_ｔ＋１）を選択した後、選択された最大値ｍａｘ_ａｔ＋１Ｑ（ｓ_ｔ＋1，ａ_ｔ＋１）が誤差関数算出部１６に出力される。これに加えて、選択された最大値ｍａｘ_ａｔ＋１Ｑ（ｓ_ｔ＋1，ａ_ｔ＋１）に対応する行動の次回値ａ_ｔ＋１がターゲット値算出部１４に出力される。

一方、ターゲット値算出部１４では、ターゲット値算出用のニューラルネットワーク（図示せず）を用いて、行動価値関数Ｑ（ｓ_ｔ＋1，ａ_ｔ＋１）の目標となるターゲット値Ｔ（ｓ_ｔ＋1，ａ_ｔ＋１）が算出される。このターゲット値算出用のニューラルネットワークは、状態の次回値ｓ_ｔ＋1及び行動の次回値ａ_ｔ＋１が入力されたときに、ターゲット値Ｔ（ｓ_ｔ＋1，ａ_ｔ＋１）を出力するように構成されており、そのパラメータは、前述したように、行動価値算出部１１から入力される更新用のパラメータθ￣に設定される。

それにより、ターゲット値算出用のニューラルネットワークのパラメータθ￣は、前述したように、パラメータθの更新回数が所定値に達するまでの間、一定値に保持される。言い換えれば、行動価値関数Ｑの算出回数が所定値に達するまでの間、一定値に保持される。以上のように算出されたターゲット値Ｔ（ｓ_ｔ＋1，ａ_ｔ＋１）は、誤差関数算出部１６に出力される。なお、本実施形態では、ターゲット値算出部１４が第２価値関数算出手段及び第２価値関数更新手段に相当し、ターゲット値Ｔが第２価値関数に相当する。

また、報酬算出部１５では、状態の次回値ｓ_ｔ＋1に基づき、所定の報酬算出アルゴリズムを用いて、報酬ｒ（ｓ_ｔ＋1）が算出され、これが誤差関数算出部１６に出力される。

一方、誤差関数算出部１６では、以上のように算出された各種の値に基づき、下式（３），（４）により、誤差関数Ｌが算出される。

上式（３）において、γは０＜γ≦１が成立するように設定される割引率であり、上式（３）の右辺第１項は、行動価値関数ＱのＴＤ誤差の２乗項である。また、右辺第２項のＥ（ｓ_ｔ＋1，ａ_ｔ＋１）は、上式（４）に示すように定義される制約項であり、λは、調整パラメータである。この調整パラメータλは、値ε１を値０に近い正の所定値（例えば値０．０００１）と規定した場合において、Ｅ（ｓ_ｔ＋1，ａ_ｔ＋１）＞ε１のときには、０＜λ≦１が成立するように設定され、Ｅ（ｓ_ｔ＋1，ａ_ｔ＋１）≦ε１のときには、λ＝０に設定される。

本実施形態の場合、上式（３）を参照すると明らかなように、誤差関数Ｌは、行動価値関数ＱのＴＤ誤差の２乗項と、調整パラメータと制約項の積λ・Ｅ（ｓ_ｔ＋1，ａ_ｔ＋１）との和として算出される。

この制約項Ｅ（ｓ_ｔ＋1，ａ_ｔ＋１）は、行動価値関数とターゲット値の差分｛Ｑ（ｓ_ｔ＋1，ａ_ｔ＋１）−Ｔ（ｓ_ｔ＋1，ａ_ｔ＋１）｝の２乗項であるので、学習初期などの、ＴＤ誤差が大きくなり、行動価値関数Ｑの更新が不安定な状態になった際でも、その不安定な変動を、行動価値関数Ｑと、所定回数の間、更新されないニューラルネットワークを用いて算出したターゲット値との差分Ｑ−Ｔを含む制約項Ｅによって抑制することができる。すなわち、一般的に、行動価値関数Ｑの学習が不安定になる、ＴＤ誤差が大きい条件下でも、学習を安定して実行することができる。言い換えれば、差分Ｑ−Ｔは、ＴＤ誤差が大きい条件下では、ターゲット値Ｔとの距離によってその不安定さを抑制するとともに、ＴＤ誤差が小さい条件下では、制約項Ｅが小さくなることで、学習の抑制度合いが低下し、効率的な学習を実行できるような効果を発揮する。

それにより、前述した式（１）のような、ＴＤ誤差の２乗項のみを成分とする誤差関数Ｌを用いた場合と比べて、学習初期などの、ＴＤ誤差が大きくなり、第１価値関数の更新が不安定な状態になった際でも、その影響を制約項Ｅ（ｓ_ｔ＋1，ａ_ｔ＋１）の効果によって緩和しながら、行動価値算出部１１におけるＱ算出用のニューラルネットワークのパラメータθを安定した状態で更新でき、学習の安定性を確保できることになる。

次に、図３を参照しながら、本実施形態の式（３），（４）に示す誤差関数Ｌを用いた場合と、前述した式（２）の誤差関数Ｌを用いた場合の行動価値関数Ｑの学習速度について説明する。同図において、実線で示す曲線は、本実施形態の式（３），（４）に示す誤差関数Ｌを用いて、スコア獲得形式の市販のコンピュータタスクを自動で学習した学習結果の一例を表している。

また、破線で示す曲線は、比較のために、前述した式（２）の誤差関数Ｌを用いたときの学習結果を表している。両者を比較すると明らかなように、本実施形態の誤差関数Ｌを用いた方が、前述した式（２）の誤差関数Ｌを用いたときよりもスコアの上昇勾配が大きくなっており、行動価値関数Ｑの学習速度が上昇していることが判る。これは、前述したように、式（２）の誤差関数Ｌの場合、ターゲット値ＴがＴＤ誤差に含まれているのに対して、本実施形態の式（３），（４）の誤差関数Ｌの場合、ターゲット値ＴがＴＤ誤差に含まれていないことによる。

次に、図４を参照しながら、学習制御について説明する。この学習制御は、前述した図２の算出手法によって、行動ａを算出するとともに、Ｑ算出用のニューラルネットワークのパラメータθを更新するものであり、ＥＣＵ２によって、前述した所定の制御周期ΔＴで実行される。

なお、以下の説明において算出される各種の値は、ＥＣＵ２のＥ２ＰＲＯＭ内に記憶されるものとする。また、以下の説明では、図６に示すように、自車両３が走行車線を走行中で、かつ先行車７ａ，７ｂが走行車線及び追い越し車線に存在する条件下において、先行車７ａの追い越しを実行するときの学習制御の一例について説明する。

まず、状態ｓとしての、状況検出装置４からの状況データｄａｔａ＿ｓを読み込む（図４／ＳＴＥＰ１）。この学習制御では、今回の制御タイミングで読み込まれた状況データｄａｔａ＿ｓの値を、状態の次回値ｓ_ｔ＋1として用いるとともに、前回の制御タイミングで読み込まれた状況データｄａｔａ＿ｓの値を、状態の今回値ｓ_ｔとして用いる。

次いで、前述したように、Ｑ算出用のニューラルネットワークを用いて、状態の次回値ｓ_ｔ＋1に基づき、ｎ個の行動価値関数Ｑ（ｓ_ｔ＋1，ａ_ｊ＋１）を算出するとともに、状態の今回値ｓ_ｔに基づき、ｎ個の行動価値関数Ｑ（ｓ_ｔ，ａ_ｊ）を算出する（図４／ＳＴＥＰ２）。

次に、前述したように、ｎ個の行動価値関数Ｑ（ｓ_ｔ，ａ_ｊ）に基づいて、ε-greedy法により、最適な行動ａを決定する（図４／ＳＴＥＰ３）。この場合の行動ａは、自車両３の操舵量及び加減速度の指令値として決定される。

その後、前述したように、ターゲット値算出用のニューラルネットワークを用いて、ターゲット値Ｔ（ｓ_ｔ＋1，ａ_ｔ＋１）を算出する（図４／ＳＴＥＰ５）。

次いで、前述したように、所定の報酬算出アルゴリズムを用いて、報酬ｒ（ｓ_ｔ＋1）を算出する（図４／ＳＴＥＰ６）。

次に、前述した式（３），（４）により、誤差関数Ｌを算出する（図４／ＳＴＥＰ７）

そして、この誤差関数Ｌに基づき、前述したように、バックプロパゲーション法により、Ｑ算出用のニューラルネットワークのパラメータθを更新する（図４／ＳＴＥＰ８）。その際、パラメータθを更新回数が所定値に達したときには、その時点のパラメータθを更新用のパラメータθ￣に設定する。以上のように、パラメータθを更新した後、本処理を終了する。

次に、図５を参照しながら、自動運転制御について説明する。この自動運転制御は、自車両３の運転状態を制御するものであり、ＥＣＵ２によって、前述した所定の制御周期ΔＴ（所定周期）で実行される。なお、以下の説明では、前述した図６に示すように、先行車７ａの追い越しを実行するときの自動運転制御の一例について説明する。

まず、Ｅ２ＰＲＯＭ内に記憶されている行動ａ、すなわち自車両３の操舵量の指令値及び加減速度の指令値を読み込む（図５／ＳＴＥＰ２０）。なお、本実施形態では、操舵量の指令値及び加減速度の指令値が行動ａに相当する。

次いで、自車両３の加減速度が読み込んだ指令値になるように、原動機５を駆動する（図５／ＳＴＥＰ２１）。

次に、自車両３の操舵量が読み込んだ指令値になるように、アクチュエータ６を駆動する（図５／ＳＴＥＰ２２）。その後、本処理を終了する。

以上のように、本実施形態の行動決定システム１０によれば、環境９からの状態ｓを用いて、行動価値関数Ｑが算出され、行動価値関数Ｑを用いて、エージェントによる最適な行動ａが決定される。さらに、式（３），（４）に示すように、誤差関数Ｌが、行動価値関数ＱのＴＤ誤差と、行動価値関数Ｑとターゲット値Ｔとの差分の２乗項である制約項Ｅとを含むように定義され、この誤差関数Ｌが最小になるように、行動価値関数Ｑの算出に用いるニューラルネットワークのパラメータθが更新される。

このターゲット値Ｔの算出に用いるニューラルネットワークのパラメータθ￣は、パラメータθの更新回数が所定値に達するまでの間に、更新されることなく一定値に保持されるので、前述した式（１）の誤差関数Ｌを用いた場合と比べて、ＴＤ誤差が大きく、行動価値関数Ｑの更新が不安定な状態にあるときでも、その影響を制約項Ｅの効果によって緩和しながら、ニューラルネットワークのパラメータθすなわち行動価値関数Ｑを更新することができ、学習の安定性を確保することができる。これに加えて、ターゲット値Ｔが誤差関数ＬのＴＤ誤差に含まれていないので、前述した式（２）の誤差関数Ｌを用いた場合と比べて、行動価値関数Ｑの更新速度すなわち学習速度を向上させることができる。

また、行動価値関数Ｑという１つの関数の算出結果を用いて、最適な行動ａを決定することができるので、複数の関数を用いる場合と比べて、演算負荷を低減することができる。さらに、行動価値関数Ｑを安定した状態で更新できることにより、学習を効率的に実行することができる。

さらに、本実施形態の自動運転制御装置１によれば、図４の学習制御において、以上のような行動決定システム１０の手法を用いながら、自車両３の操舵量及び加減速度の指令値を最適な値に決定することができるので、自車両３の制御精度を向上させることができる。

なお、図４の学習制御は、行動ａとして、自車両３の操舵量及び加減速度の指令値を決定した例であるが、これに代えて、行動ａとして、自車両３の走行軌道を決定してもよい。その場合には、図５の自動運転制御において、決定された走行軌道で自車両３が走行するように、原動機５及びアクチュエータ６を制御すればよい。

また、第１実施形態は、行動価値関数算出部１１において、行動価値関数Ｑをニューラルネットワークで近似して、行動価値関数Ｑの値を算出した例であるが、行動価値関数Ｑを近似する関数はこれに限定されるものではない。例えば、行動価値関数Ｑを近似する関数として、状態ｓを表す特徴ベクトルと基底関数の線形結合で表現したものを用いてもよい。その場合には、前述した式（３），（４）で定義される誤差関数Ｌの値が最小になるように、重みの値を更新すればよい。

さらに、第１実施形態は、本発明の行動決定システムを自動運転車両を制御する自動運転制御装置に適用した例であるが、本発明の行動決定システムはこれに限らず、様々な産業機器を制御するシステムに適用可能である。例えば、本発明の行動決定システムをロボットを制御するシステムに適用してもよく、自動運転される船舶などの産業機器を制御するシステムに適用してもよい。また、本発明の行動決定システムを、２，３輪タイプの自動運転車両や５輪以上の自動運転車両の制御に適用してもよい。

一方、第１実施形態は、所定手法として、ε-greedy法を用いた例であるが、本発明の所定手法はこれに限らず、行動価値関数が最大となる行動を最適な行動として選択できるものであればよい。例えば、所定手法として、特定分布に基づくソフトマックス手法や、アニーリングを組み合わせた手法などを用いてもよい。

次に、図７を参照しながら、第２実施形態に係る自動運転制御装置１Ａ（エージェント）について説明する。この自動運転制御装置１Ａの場合、第１実施形態の自動運転制御装置１と比較して、図７に示す行動決定システム１０Ａの構成のみが異なっているので、以下、異なる点を中心に説明する。また、第１実施形態と同一の構成に対しては同じ符号を付すとともに、その説明を適宜、省略する。

この行動決定システム１０Ａの場合、前述した図２の行動決定システム１０と比較すると明らかなように、行動決定システム１０におけるターゲット値算出部１４に代えて、ターゲット値算出部１４Ａを備えている点が異なっている。

このターゲット値算出部１４Ａでは、行動価値関数Ｑの近似関数として、パラメータが固定されたニューラルネットワークを用いて、ターゲット値Ｔｒｅｆ（ｓ_ｔ＋1，ａ_ｔ＋１）が算出され、このターゲット値Ｔｒｅｆ（ｓ_ｔ＋1，ａ_ｔ＋１）が誤差関数算出部１６Ａに出力される。

この場合、固定されたパラメータの値としては、他の自動運転制御装置において、Ｑ算出用のニューラルネットワークのパラメータの学習が十分に進行した状態となっているときのパラメータの値が用いられる。なお、本実施形態では、ターゲット値Ｔｒｅｆが固定された関数に相当する。

また、誤差関数算出部１６Ａでは、下式（５），（６）により、誤差関数Ｌが算出される。

以上のように、本実施形態の行動決定システム１０Ａによれば、誤差関数Ｌの制約項Ｅの算出において、ターゲット値Ｔｒｅｆが用いられる。このターゲット値Ｔｒｅｆは、パラメータが固定されたニューラルネットワークを用いて算出され、この固定されたパラメータは、他の自動運転制御装置において、Ｑ算出用のニューラルネットワークのパラメータの学習が十分に進行した状態となっているときのパラメータの値であるので、ＴＤ誤差が大きく、行動価値関数Ｑの更新が不安定な状態になったときでも、その影響を制約項Ｅの効果によって緩和しながら、行動価値関数Ｑを安定した状態で更新することができ、学習の安定性を確保することができる。さらに、ターゲット値ＴｒｅｆがＴＤ誤差に含まれていないので、前述した式（２）の誤差関数を用いた場合と比べて、行動価値関数Ｑの更新速度すなわち学習速度を向上させることができる。

なお、第２実施形態は、固定された関数として、ターゲット値Ｔｒｅｆを用いた例であるが、本発明の固定された関数はこれに限らず、独立変数以外のパラメータが固定された関数であればよい。例えば、固定された関数を、複数の他の自動運転制御装置において、Ｑ算出用のニューラルネットワークの学習が十分に進行したときのパラメータθの複数の値の平均値を算出し、この平均値をパラメータとするニューラルネットワークを用いて算出した値としてもよい。

次に、図８を参照しながら、第３実施形態に係る自動運転制御装置１Ｂ（エージェント）について説明する。この自動運転制御装置１Ｂの場合、第１実施形態の自動運転制御装置１と比較して、図８に示す行動決定システム１０Ｂの構成のみが異なっているので、以下、異なる点を中心に説明する。また、第１実施形態と同一の構成に対しては同じ符号を付すとともに、その説明を適宜、省略する。

この行動決定システム１０Ｂは、行動算出部２０、行動価値算出部１１Ｂ、ターゲット行動算出部２１、ターゲット値算出部１４Ｂ、報酬算出部１５及び誤差関数算出部１６Ｂを備えている。

この行動算出部２０は、方策関数を用いて、行動ａを算出するものである。この方策関数は、環境情報から最適な行動出力や、その確かさを算出ものであり、この行動算出部２０では、方策関数の近似関数として、行動算出用のニューラルネットワーク（図示せず）が用いられる。この行動算出用のニューラルネットワークの場合、状態ｓを入力とし、行動ａを出力とするものであり、具体的には、状態の今回値ｓ_ｔを用いて行動ａの今回値ａ_ｔが算出され、これが環境９及び行動価値算出部１１Ｂに出力される。

さらに、行動算出用のニューラルネットワークでは、状態の次回値ｓ_ｔ＋1を用いて、行動ａの次回値ａ_ｔ＋1が算出され、これが行動価値算出部１１Ｂに出力される。

これに加えて、行動算出部２０では、バックプロパゲーション法により、行動価値算出部１１Ｂから入力される行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）が最大になるように、行動算出用のニューラルネットワークのパラメータφ（重みなど）が前述した制御周期ΔＴで更新されるとともに、その更新タイミングに同期して、更新されたパラメータφがターゲット行動算出部２１に出力される。なお、本実施形態では、ＥＣＵ２が方策関数更新手段に相当し、行動算出部２０が行動決定手段及び方策関数更新手段に相当する。

また、行動価値算出部１１Ｂは、ある状態ｓと、そのときに行った行動ａの評価である行動価値関数Ｑを算出するものであり、状態価値関数としての行動価値関数Ｑを近似したＱ算出用のニューラルネットワーク（図示せず）を備えている。この行動決定システム１０Ｂの場合、行動算出部２０及び行動価値算出部１１Ｂを組み合わせて用いることで、状態の今回値ｓｔから行動価値関数Ｑ（ｓｔ，ａｔ）が算出され、これが誤差関数算出部１６Ｂ及び行動算出部２０に出力される。

さらに、このＱ算出用のニューラルネットワークでは、状態の次回値ｓ_ｔ＋1を用いて、行動価値関数Ｑ（ｓ_ｔ＋1，ａ_ｔ＋1）が算出され、これが誤差関数算出部１６Ｂに出力される。

これに加えて、行動価値算出部１１Ｂでは、前述した行動価値算出部１１と同様に、バックプロパゲーション法により、誤差関数算出部１６Ｂから入力される誤差関数Ｌが最小になるように、Ｑ算出用のニューラルネットワークのパラメータθが前述した制御周期ΔＴで更新されるとともに、その更新タイミングに同期して、更新されたパラメータθがターゲット行動算出部２１に出力される。なお、本実施形態では、行動価値算出部１１Ｂが第１価値関数算出手段及び第１価値関数更新手段に相当する。

一方、前述したターゲット行動算出部２１は、ターゲット行動ａ_Ｔを算出するものであり、状態ｓを入力とし、ターゲット行動ａ_Ｔを出力とするターゲット行動算出用のニューラルネットワーク（図示せず）を備えている。このターゲット行動算出用のニューラルネットワークでは、状態の次回値ｓ_ｔ＋1を用いてターゲット行動ａ_ｔ＋1Ｔが算出され、これがターゲット値算出部１４Ｂに出力される。

さらに、ターゲット行動算出部２１では、ターゲット行動算出用のニューラルネットワークのパラメータφ￣が、行動算出部２０から入力されるパラメータφを用いて、下式（７）に示す加重平均演算により前述した制御周期ΔＴで更新される。

上式（７）のβは、重み係数であり、値０に近い正の所定値（例えば値０．００１）に設定される。

また、ターゲット値算出部１４Ｂでは、ターゲット値算出用のニューラルネットワークを用いて、ターゲット値Ｔ（ｓ_ｔ＋1，ａ_ｔ＋１T）が算出される。このターゲット値算出用のニューラルネットワークは、状態の次回値ｓ_ｔ＋1及びターゲット行動ａ_ｔ＋1Ｔが入力されたときに、ターゲット値Ｔ（ｓ_ｔ＋1，ａ_ｔ＋１T）を出力するように構成されている。

このターゲット値算出用のニューラルネットワークのパラメータθ￣は、行動価値算出部１１Ｂから入力されるパラメータθを用いて、下式（８）に示す加重平均演算により前述した制御周期ΔＴで更新される。

なお、本実施形態では、ターゲット値算出部１４Ｂが第２価値関数算出手段及び第２価値関数更新手段に相当し、ターゲット値Ｔが第２価値関数に相当する。

さらに、誤差関数算出部１６Ｂでは、以上のように算出された各種の値に基づき、下式（９），（１０）により、誤差関数Ｌが算出される。

なお、上式（９）の最大値ｍａｘ_ａｔ＋１Ｑ（ｓ_ｔ＋1，ａ_ｔ＋１）としては、行動価値関数Ｑ（ｓ_ｔ＋1，ａ_ｔ＋1）の値が用いられる。このように最大値ｍａｘ_ａｔ＋１Ｑ（ｓ_ｔ＋1，ａ_ｔ＋１）を設定する理由は、方策関数を用いて算出されたａ_ｔ＋１は、最適な出力であるという仮定に基づくものである。

以上のように、本実施形態の行動決定システム１０Ｂによれば、行動算出部２０で、ニューラルネットワークで近似した方策関数を用いて、行動ａが算出され、行動価値算出部１１Ｂで、ニューラルネットワークで近似した状態価値関数を用いて、行動価値関数Ｑが算出される。このように、方策関数及び状態価値関数を別個に用いることができるので、方策関数を学習する際の任意性を向上させることができ、連続空間や高次元空間に対応できるとともに、エージェントによる探索行動のコントロールを容易に実行することができる。さらに、誤差関数Ｌが最小になるように、状態価値関数が更新されるとともに、状態価値関数が最大となるように、方策関数が更新されるので、方策関数を、その挙動が不安定になるのを抑制しながら安定した状態で更新することができる。

なお、第３実施形態は、状態価値関数が最大となるように、方策関数を更新した例であるが、これに代えて、状態価値関数及びアドバンテージ関数の双方が最大になるように、方策関数を更新するように構成してもよい。

次に、図９を参照しながら、第４実施形態に係る自動運転制御装置１Ｃ（エージェント）について説明する。この自動運転制御装置１Ｃの場合、第１実施形態の自動運転制御装置１と比較して、図９に示す行動決定システム１０Ｃの構成のみが異なっているので、以下、異なる点を中心に説明する。

この行動決定システム１０Ｃは、行動価値算出部１１Ｃ、方策算出部１２Ｃ、最大値選択部１３Ｃ、ターゲット値算出部１４Ｃ、報酬算出部１５Ｃ及び誤差関数算出部１６Ｃを備えている。

この行動価値算出部１１Ｃは、Ｑ算出用のニューラルネットワーク及び記憶部を備えている。この記憶部は、経験メモリタイプのものであり、値ｉをｉ＝１〜ｍ（ｍは複数）と規定したときに、合計ｍ＋１回の制御タイミングで環境９からそれぞれ入力されたｍ＋１個の状態の時系列離散データｓ_ｔ〜ｓ_ｔ＋ｉを記憶する。さらに、行動価値算出部１１Ｃは、記憶部内の最新の値ｓ_ｔ＋ｍをターゲット値算出部１４Ｃに出力する。

また、Ｑ算出用のニューラルネットワークでは、記憶部内のｍ個の状態の時系列離散データｓ_{ｔ＋ｉ−１}を用いて、ｍ×ｎ個の行動価値関数Ｑ（ｓ_{ｔ＋ｉ−１}，ａ_ｊ）が算出され、これらの値が方策算出部１２Ｃに出力される。

さらに、このＱ算出用のニューラルネットワークでは、記憶部内の最新の値ｓ_ｔ＋ｍを用いて、ｎ個の行動価値関数Ｑ（ｓ_ｔ＋ｍ，ａ_ｊ）が算出され、これらの値が最大値選択部１３Ｃに出力される。

これに加えて、行動価値算出部１１Ｃでは、バックプロパゲーション法により、誤差関数算出部１６Ｃから入力される誤差関数Ｌが最小になるように、Ｑ算出用のニューラルネットワークのパラメータθが前述した制御周期ΔＴで更新される。

さらに、このパラメータθの更新回数が前述した所定値に達する毎に、その時点のパラメータθが、更新用のパラメータθ￣としてターゲット値算出部１４Ｃに出力される。なお、本実施形態では、行動価値算出部１１Ｃが第１価値関数算出手段及び第１価値関数更新手段に相当する。

また、方策算出部１２Ｃ（行動決定手段）では、行動価値算出部１１Ｃから入力されるｍ×ｎ個の行動価値関数Ｑ（ｓ_{ｔ＋ｉ−１}，ａ_ｊ）に基づいて、前述したε-greedy法により、行動ａ_ｔが選択されるとともに、選択された行動ａ_ｔが環境９に出力される。さらに、選択された行動ａ_ｔに対応する行動価値関数Ｑ（ｓ_ｔ，ａ_ｔ）が、誤差関数算出部１６Ｃに出力される。

さらに、最大値選択部１３Ｃでは、行動価値算出部１１Ｃから入力されたｎ個の行動価値関数Ｑ（ｓ_ｔ＋ｍ，ａ_ｊ）を比較し、これらの中から最大値ｍａｘ_ａｔ＋１Ｑ（ｓ_ｔ＋ｍ，ａ_ｔ＋ｍ）を選択した後、選択された最大値ｍａｘ_ａｔ＋１Ｑ（ｓ_ｔ＋ｍ，ａ_ｔ＋ｍ）が誤差関数算出部１６Ｃに出力される。これに加えて、選択された最大値ｍａｘ_ａｔ＋ｍＱ（ｓ_ｔ＋ｍ，ａ_ｔ＋ｍ）に対応する行動ａ_ｔ＋ｍがターゲット値算出部１４Ｃに出力される。

一方、ターゲット値算出部１４Ｃは、ターゲット値算出用のニューラルネットワークを備えており、このターゲット値算出用のニューラルネットワークは、状態の最新値ｓ_ｔ＋ｍ及び最大値ｍａｘ_ａｔ＋ｍＱ（ｓ_ｔ＋ｍ，ａ_ｔ＋ｍ）に対応する行動ａ_ｔ＋ｍを用いてターゲット値Ｔ（ｓ_ｔ＋ｍ，ａ_ｔ＋ｍ）を算出し、これを誤差関数算出部１６Ｃに出力する。

また、このターゲット値算出用のニューラルネットワークのパラメータ（重み）θ￣は、前述したように、行動価値算出部１１Ｃから入力される更新用のパラメータθ￣に設定される。なお、本実施形態では、ターゲット値算出部１４Ｃが第２価値関数算出手段及び第２価値関数更新手段に相当する。

さらに、報酬算出部１５Ｃは、行動価値算出部１１Ｃの記憶部と同様の、経験メモリタイプの記憶部を備えている。この報酬算出部１５Ｃでは、記憶部に記憶されているｍ個の状態の時系列離散データｓ_ｔ＋ｉに基づき、所定の報酬算出アルゴリズムを用いて、報酬ｒ（ｓ_ｔ＋ｉ）が算出され、これが誤差関数算出部１６Ｃに出力される。

さらに、誤差関数算出部１６Ｃでは、以上のように算出された各種の値に基づき、下式（１１），（１２）により、誤差関数Ｌが算出される。

以上のように、本実施形態の行動決定システム１０Ｃによれば、誤差関数ＬのＴＤ誤差が、ｍ＋１回の行動ａ_ｔ〜ａ_ｔ＋ｍを実行した結果のｍ個の報酬の時系列離散データｒ（ｓ_ｔ＋ｉ）を含むように算出され、この誤差関数Ｌが最小になるように、行動価値関数Ｑ算出用のニューラルネットワークが更新されるので、１つの状態の時系列離散データｓ_ｔを用いた場合と比べて、過去に行った行動ａの（行動価値関数Ｑによる）評価をより迅速に行動価値関数Ｑの更新に反映させることができ、学習速度をさらに向上させることができる。

１自動運転制御装置（エージェント）
２ＥＣＵ（第１価値関数算出手段、行動決定手段、第１価値関数更新手段、第２価値関数算出手段、第２価値関数更新手段、方策関数更新手段）
３自動運転車両
９環境
１０行動決定システム
１１行動価値算出部（第１価値関数算出手段、第１価値関数更新手段）
１２方策算出部（行動決定手段）
１４ターゲット値算出部（第２価値関数算出手段、第２価値関数更新手段）
１Ａ自動運転制御装置（エージェント）
１０Ａ行動決定システム
１Ｂ自動運転制御装置（エージェント）
１０Ｂ行動決定システム
１１Ｂ行動価値算出部（第１価値関数算出手段、第１価値関数更新手段）
１４Ｂターゲット値算出部（第２価値関数算出手段、第２価値関数更新手段）
２０行動算出部（行動決定手段、方策関数更新手段）
１Ｃ自動運転制御装置（エージェント）
１０Ｃ行動決定システム
１１Ｃ行動価値算出部（第１価値関数算出手段、第１価値関数更新手段）
１２Ｃ方策算出部（行動決定手段）
１４Ｃターゲット値算出部（第２価値関数算出手段、第２価値関数更新手段）
Ｑ行動価値関数（第１価値関数）
ａ行動
ｓ状態（情報）
data_s 状況データ（情報、状態）
Ｌ誤差関数
Ｔターゲット値（第２価値関数）
ε１所定値
Tref ターゲット値（第２価値関数、固定された関数）
ΔＴ制御周期（所定周期）

Claims

強化学習法を用いてエージェントによる行動を決定する行動決定システムにおいて、
環境から前記エージェントに入力される情報を用いて、第１価値関数を算出する第１価値関数算出手段と、
当該第１価値関数を用いて、前記エージェントによる最適な行動を決定する行動決定手段と、
前記第１価値関数のＴＤ誤差と、前記第１価値関数と当該第１価値関数の目標となる値を算出する関数である第２価値関数との差分と、を含むように定義された誤差関数が最小になるように、前記第１価値関数を更新する第１価値関数更新手段と、
を備えることを特徴とする行動決定システム。
前記第１価値関数更新手段は、前記誤差関数として、前記差分が所定値を超えているときには、前記ＴＤ誤差と前記差分を含むように定義された誤差関数を用い、前記差分が所定値以下のときには、前記ＴＤ誤差のみを含むように定義された誤差関数を用いることを特徴とする請求項１に記載の行動決定システム。
前記情報を用いて、前記第２価値関数を算出する第２価値関数算出手段と、
前記第２価値関数を前記第１価値関数よりも遅い更新速度で更新する第２価値関数更新手段と、
をさらに備えることを特徴とする請求項１又は２に記載の行動決定システム。
前記第２価値関数として固定された関数を用いることを特徴とする請求項１又は２に記載の行動決定システム。
前記情報は、前記環境の状態であり、
前記第１価値関数は、前記環境の状態及び前記行動を評価するための行動価値関数であり、
前記行動決定手段は、所定手法を用いて、前記行動価値関数に基づき、前記最適な行動を決定することを特徴とする請求項１ないし４のいずれかに記載の行動決定システム。
前記情報は、前記環境の状態であり、
前記第１価値関数は、前記環境の状態を評価するための状態価値関数と前記行動を評価するための方策関数とを含み、
前記行動決定手段は、前記方策関数を用いて、前記最適な行動を決定し、
前記第１価値関数更新手段は、前記誤差関数が最小になるように、前記状態価値関数を更新し、
前記状態価値関数が最大となるように、前記方策関数を更新する方策関数更新手段をさらに備えることを特徴とする請求項１ないし４のいずれかに記載の行動決定システム。
前記情報は、前記エージェントが所定周期で前記最適な行動を複数回、実行したときに、前記環境から当該所定周期で入力される前記情報の複数の時系列離散データであり、
前記第１価値関数のＴＤ誤差は、前記情報の複数の時系列離散データを用いて算出した報酬の複数の時系列離散データを含むように構成されていることを特徴とする請求項１ないし６のいずれかに記載の行動決定システム。
請求項１ないし７のいずれかに記載の行動決定システムを備え、自動運転車両を制御する自動運転制御装置において、
前記情報は、前記自動運転車両の動作状況及び動作環境を表す状況データであり、
前記行動は、前記自動運転車両を制御するための目標値又は指令値であることを特徴とする自動運転制御装置。