JP2019087096A - Action determination system and automatic driving control device - Google Patents

Action determination system and automatic driving control device Download PDF

Info

Publication number
JP2019087096A
JP2019087096A JP2017215645A JP2017215645A JP2019087096A JP 2019087096 A JP2019087096 A JP 2019087096A JP 2017215645 A JP2017215645 A JP 2017215645A JP 2017215645 A JP2017215645 A JP 2017215645A JP 2019087096 A JP2019087096 A JP 2019087096A
Authority
JP
Japan
Prior art keywords
value
function
action
value function
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017215645A
Other languages
Japanese (ja)
Other versions
JP6845529B2 (en
Inventor
康輔 中西
Kosuke Nakanishi
康輔 中西
安井 裕司
Yuji Yasui
裕司 安井
祐紀 喜住
Yuki Kizumi
祐紀 喜住
翔太 大西
Shota Onishi
翔太 大西
石井 信
Makoto Ishii
信 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Kyoto University
Original Assignee
Honda Motor Co Ltd
Kyoto University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd, Kyoto University filed Critical Honda Motor Co Ltd
Priority to JP2017215645A priority Critical patent/JP6845529B2/en
Publication of JP2019087096A publication Critical patent/JP2019087096A/en
Application granted granted Critical
Publication of JP6845529B2 publication Critical patent/JP6845529B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Steering Control In Accordance With Driving Conditions (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
  • Feedback Control In General (AREA)

Abstract

To provide an action determination system and an automatic driving control device, capable of improving the leaning speed while securing the learning stability when a reinforcement learning method is used.SOLUTION: In an action determination system 10, an action value function Q is calculated using a state s, and an optimal action a is determined using the action value function Q. A parameter θ of a neural network for calculating the action value function Q is updated so that an error function L is minimized, which is defined so as to include a squared term of TD error of the action value function Q and a squared term of the difference between the action value function Q and a target value T.SELECTED DRAWING: Figure 2

Description

本発明は、強化学習法を用いてエージェントによる行動を決定する行動決定システム、及びこれを備えた自動運転制御装置に関する。   The present invention relates to an action determination system that determines an action by an agent using a reinforcement learning method, and an automatic driving control apparatus including the same.

従来、強化学習法を用いた行動決定システムとして、特許文献1に記載されたものが知られている。この行動決定システムでは、複数の利用者の発言を状態s、発言に対する応答を行動a、報酬をrとして、報酬rが最大になるように、行動価値関数Qを定義し(同文献の式4)、この行動価値関数Qを用いて強化学習を実行する。そして、学習結果に基づいて、行動aを算出し、これを応答として、ロボットに読み出させている。   DESCRIPTION OF RELATED ART Conventionally, what was described in patent document 1 is known as an action determination system which used the reinforcement learning method. In this action determination system, the action value function Q is defined so that the reward r is maximized, with the utterances of a plurality of users as the state s, the responses to the utterances as the action a, and the reward r. ), Perform reinforcement learning using this action value function Q. Then, the action a is calculated based on the learning result, and this is read as a response by the robot.

このように行動価値関数Qを用いて強化学習を実行する場合、行動価値関数Qをニューラルネットワークで近似するとともに、誤差関数LをTD誤差に基づいて定義し、これが最小になるように、ニューラルネットワークを更新する手法が知られている。この場合、一般的なQ学習法では、誤差関数Lとして、下式(1)に示すものが用いられる。   Thus, when performing reinforcement learning using the action value function Q, the action value function Q is approximated by a neural network, and the error function L is defined based on the TD error, and the neural network is minimized so as to minimize this. The method of updating the is known. In this case, in the general Q learning method, as the error function L, the one shown in the following equation (1) is used.

この式(1)において、θはニューラルネットワークのパラメータ(重みなど)を、s’は状態の次回値をそれぞれ表している。また、γは0<γ≦1が成立するように設定される割引率である。   In this equation (1), θ represents a parameter (weight or the like) of the neural network, and s' represents the next value of the state. Further, γ is a discount rate set such that 0 <γ ≦ 1 holds.

しかし、上式(1)に示す誤差関数Lを用いた場合、更新の目標となる行動価値関数もステップ毎の更新によって変動する関係上、ニューラルネットワークの更新が不安定になり、学習が不安定になってしまう。この問題を回避するために、Fixed Target Q-Network法では、誤差関数Lとして、下式(2)に示すように、行動価値関数Qに代えて、Target Q-Networkの出力値(以下「ターゲット値」という)TをTD誤差の期待報酬に含むように定義されたものが用いられる(非特許文献1,2)。   However, when the error function L shown in the above equation (1) is used, the update of the neural network becomes unstable and the learning becomes unstable because the behavior value function which is the target of update also fluctuates due to the update every step. Become. In order to avoid this problem, in the Fixed Target Q-Network method, as an error function L, as shown in the following equation (2), an output value of Target Q-Network (hereinafter referred to as “target What is defined as including a value “) T in the expected reward of the TD error is used (Non-Patent Documents 1 and 2).

特開2017−173874号公報JP, 2017-173874, A ”Human-level control through deep reinforcement learning”, [online], [平成29年11月2日検索], インターネット<URL:http://www.teach.cs.toronto.edu/~csc2542h/fall/material/csc2542f16_dqn.pdf>“Human level control through deep reinforcement learning”, [online], [search on November 2, 2017], Internet <URL: http://www.teach.cs.toronto.edu/~csc2542h/fall/material /csc2542f16_dqn.pdf> ”Deep Reinforcement Learning with Double Q-learning”, [online], [平成29年11月2日検索], インターネット<URL:https://arxiv.org/pdf/1509.06461.pdf>“Deep Reinforcement Learning with Double Q-learning”, [online], [Search on November 2, 2017], Internet <URL: https://arxiv.org/pdf/1509.06461.pdf>

上記式(2)に示す誤差関数Lを用いて、ニューラルネットワークを更新した場合、所定回数の学習が実行されるまでの間、ターゲット値Tが更新されることなく保持されるので、行動価値関数の更新の目標となる値が固定化されることによって、学習の安定性を確保することができる。しかしながら、ニューラルネットワークの更新速度が抑制されてしまうことによって、学習速度が低下するという問題がある。   When the neural network is updated using the error function L shown in the above equation (2), the target value T is held without being updated until a predetermined number of times of learning is performed, so the behavior value function The stability of learning can be ensured by fixing the target value of the update of. However, there is a problem that the learning speed is reduced by the fact that the update speed of the neural network is suppressed.

本発明は、上記課題を解決するためになされたもので、強化学習法を用いる場合において、学習の安定性を確保しながら、学習速度を向上させることができる行動決定システム及び自動運転制御装置を提供することを目的とする。   The present invention has been made to solve the above-mentioned problems, and in the case of using a reinforcement learning method, an action determination system and an automatic driving control apparatus capable of improving learning speed while securing learning stability. Intended to be provided.

上記目的を達成するために、本発明は、強化学習法を用いてエージェント(自動運転制御装置1,1A〜1C)による行動aを決定する行動決定システム10,10A〜10Cにおいて、環境9からエージェントに入力される情報(状態s、状況データdata_s)を用いて、第1価値関数(行動価値関数Q)を算出する第1価値関数算出手段(ECU2、行動価値算出部11,11B,11C)と、第1価値関数を用いて、エージェントによる最適な行動を決定する行動決定手段(ECU2、方策算出部12,12C、行動算出部20)と、第1価値関数のTD誤差(式(3),(5),(9),(11)の右辺第1項の{}内の値)と、第1価値関数と第1価値関数と異なる第2価値関数(ターゲット値T)との差分(式(4),(6),(10),(12)の右辺第1項の{}内の値)と、を含むように定義された誤差関数Lが最小になるように、第1価値関数を更新する第1価値関数更新手段(ECU2、行動価値算出部11,11B,11C)と、を備えることを特徴とする。   In order to achieve the above object, the present invention uses the reinforcement learning method to determine the action a by the agent (the automatic driving control devices 1, 1A to 1C) in the action determination system 10 or 10A to 10C. Means for calculating a first value function (action value function Q) using information (state s, situation data data_s) input to the control unit (ECU 2, action value calculation units 11, 11B, 11C) and , An action determination unit (ECU 2, the policy calculation unit 12, 12C, the action calculation unit 20) for determining an optimum action by the agent using the first value function, and a TD error of the first value function (Equation (3), The difference between the first value function and the second value function (target value T) different from the first value function (target value T) (the expression (4), (6 , (10), (12), the first value function that updates the first value function so that the error function L defined to include the value in {} of the first term of the right side of the first term is minimized And updating means (ECU 2, action value calculation units 11, 11B, 11C).

この行動決定システムによれば、環境からエージェントに入力される情報を用いて、第1価値関数が算出され、第1価値関数を用いて、エージェントによる最適な行動が決定される。さらに、第1価値関数のTD誤差と、第1価値関数と第1価値関数と異なる第2価値関数との差分を含むように定義された誤差関数が最小になるように、第1価値関数が更新されるので、前述した式(1)の誤差関数を用いた場合と比べて、学習初期などの、TD誤差が大きくなり、第1価値関数の更新が不安定な状態になった際でも、その影響を第1価値関数と第2価値関数との差分によって緩和しながら、第1価値関数を更新することができ、学習の安定性を確保することができる。これに加えて、前述した式(2)の誤差関数と異なり、ターゲット値Tが誤差関数のTD誤差に含まれていないので、第1価値関数の更新速度すなわち学習速度を向上させることができる(なお、本明細書における「第1価値関数を算出する」ということは、独立変数の値を第1価値関数に代入することにより、従属変数としての第1価値関数の値を算出/設定することを意味する。また、本明細書における「第1価値関数を更新する」ということは、第1価値関数における独立変数以外のパラメータ成分を更新することを意味する)。   According to this behavior determination system, the first value function is calculated using information input from the environment to the agent, and the optimal behavior by the agent is determined using the first value function. Furthermore, the first value function is such that the error function defined to include the difference between the TD error of the first value function and the second value function different from the first value function and the first value function is minimized. Since it is updated, compared with the case where the error function of the equation (1) described above is used, the TD error becomes larger at the initial stage of learning, etc., and the update of the first value function becomes unstable. The first value function can be updated while mitigating the influence by the difference between the first value function and the second value function, and the stability of learning can be ensured. In addition to this, unlike the error function of equation (2) described above, the target value T is not included in the TD error of the error function, so the update speed of the first value function, ie, the learning speed can be improved ( Note that "calculating the first value function" in the present specification means calculating / setting the value of the first value function as a dependent variable by substituting the value of the independent variable into the first value function. Also, in the present specification, “updating the first value function” means updating parameter components other than the independent variable in the first value function).

本発明において、第1価値関数更新手段は、誤差関数として、差分が所定値ε1を超えているときには、TD誤差と差分を含むように定義された誤差関数を用い、差分が所定値ε1以下のときには、TD誤差のみを含むように定義された誤差関数を用いることが好ましい。   In the present invention, the first value function updating means uses, as an error function, an error function defined to include the TD error and the difference when the difference exceeds the predetermined value ε1, and the difference is less than the predetermined value ε1. At times, it is preferable to use an error function defined to include only the TD error.

この制御装置によれば、差分が所定値以下のときには、TD誤差のみを含むように定義された誤差関数を用いて、第1価値関数が更新されるので、TD誤差のみを減少するように第1価値関数を更新することができ、その更新速度を向上させることができる。   According to this control device, when the difference is less than the predetermined value, the first value function is updated using the error function defined to include only the TD error, so that only the TD error is reduced. One value function can be updated, and the update speed can be improved.

本発明において、情報(状態s、状況データdata_s)を用いて、第2価値関数(ターゲット値T)を算出する第2価値関数算出手段(ECU2、ターゲット値算出部14,14B,14C)と、第2価値関数(ターゲット値T)を第1価値関数(行動価値関数Q)よりも遅い更新速度で更新する第2価値関数更新手段(ECU2、ターゲット値算出部14,14B,14C)と、をさらに備えることが好ましい。   In the present invention, second value function calculation means (ECU 2, target value calculation units 14, 14B, 14C) for calculating a second value function (target value T) using information (state s, situation data data_s); Second value function updating means (ECU 2, target value calculation units 14, 14B, 14C) for updating the second value function (target value T) at an update rate slower than the first value function (action value function Q) It is preferable to further include.

この制御装置によれば、第2価値関数が、情報を用いて算出されるとともに、第1価値関数よりも遅い更新速度で更新されるので、TD誤差の挙動が不安定な状態になったときでも、その影響を第1価値関数と第2価値関数の差分によって緩和しながら、第1価値関数を安定した状態で更新することができ、学習の安定性を確保することができる。さらに、第1価値関数よりも遅い更新速度で更新される第2価値関数がTD誤差に含まれていないので、前述した式(2)の誤差関数を用いた場合と比べて、第1価値関数の更新速度すなわち学習速度を向上させることができる。   According to this control device, the second value function is calculated using information and updated at a slower update rate than the first value function, so when the behavior of the TD error becomes unstable. However, the first value function can be updated in a stable state while the influence thereof is mitigated by the difference between the first value function and the second value function, and learning stability can be ensured. Furthermore, since the second value function updated at a slower update rate than the first value function is not included in the TD error, the first value function is compared with the case where the error function of equation (2) described above is used. Update speed, that is, learning speed can be improved.

本発明において、第2価値関数として固定された関数(ターゲット値Tref)を用いることが好ましい。   In the present invention, it is preferable to use a fixed function (target value Tref) as the second value function.

この制御装置によれば、第2価値関数として固定された関数が用いられるので、この固定された関数を適切なもの(例えば他のシステムで学習済みの第2価値関数)に設定することにより、TD誤差の挙動が不安定な状態になったときでも、その影響を第1価値関数と第2価値関数の差分によって緩和しながら、第1価値関数を安定した状態で更新することができ、学習の安定性を確保することができる。さらに、一定値に設定された第2価値関数がTD誤差に含まれていないので、前述した式(2)の誤差関数を用いた場合と比べて、第1価値関数の更新速度すなわち学習速度を向上させることができる(なお、本明細書における「固定された関数」は、独立変数以外の値が固定された形式の関数を意味する)。   According to this control device, since the fixed function is used as the second value function, by setting the fixed function to an appropriate one (for example, the second value function learned by another system), Even when the behavior of the TD error becomes unstable, the first value function can be updated in a stable state while the influence is mitigated by the difference between the first value function and the second value function. Stability of the Furthermore, since the second value function set to a constant value is not included in the TD error, the update speed of the first value function, that is, the learning speed is compared to the case where the error function of equation (2) described above is used. This can be improved (note that "fixed function" in this specification means a function of a form in which values other than independent variables are fixed).

本発明において、情報は、環境9の状態sであり、第1価値関数は、環境9の状態s及び行動aを評価するための行動価値関数Qであり、行動決定手段は、所定手法(ε-greedy法)を用いて、行動価値関数に基づき、最適な行動aを決定することが好ましい。   In the present invention, the information is the state s of the environment 9, the first value function is the action value function Q for evaluating the state s of the environment 9 and the action a, and the action determining means is a predetermined method (ε It is preferable to determine the optimal action a based on the action value function using the -greedy method).

この制御装置によれば、行動価値関数という1つの関数の算出結果を用いて、最適な行動を決定することができるので、複数の関数を用いる場合と比べて、演算負荷を低減することができる。さらに、前述したように、行動価値関数を安定した状態で更新できることにより、学習を効率的に実行することができる。   According to this control device, since it is possible to determine the optimum behavior using the calculation result of one function called the action value function, the operation load can be reduced compared to the case of using a plurality of functions. . Furthermore, as described above, the ability to update the behavior value function in a stable state enables efficient execution of learning.

本発明において、情報は、環境9の状態であり、第1価値関数は、環境9の状態を評価するための状態価値関数と行動を評価するための方策関数とを含み、行動決定手段は、方策関数を用いて、最適な行動aを決定し、第1価値関数更新手段は、誤差関数Lが最小になるように、状態価値関数を更新し、状態価値関数が最大となるように、方策関数を更新する方策関数更新手段(ECU2、行動算出部20)をさらに備えることが好ましい。   In the present invention, the information is the state of the environment 9, the first value function includes a state value function for evaluating the state of the environment 9 and a policy function for evaluating the action, and the action determining means is The optimal action a is determined using the policy function, and the first value function updating means updates the state value function so that the error function L is minimized, and the policy such that the state value function is maximized. It is preferable to further include a policy function update unit (ECU 2, behavior calculation unit 20) for updating the function.

この制御装置によれば、第1価値関数が、環境の状態を評価するための状態価値関数と行動を評価するための方策関数とを含んでいるので、方策関数を学習する際の任意性を向上させることができ、連続空間や高次元空間に対応できるとともに、エージェントによる探索行動のコントロールを容易に実行することができる。さらに、誤差関数が最小になるように、状態価値関数が更新され、状態価値関数が最大となるように、方策関数が更新されるので、方策関数を、その挙動が不安定になるのを抑制しながら安定した状態で更新することができる。   According to this control device, since the first value function includes the state value function for evaluating the state of the environment and the policy function for evaluating the behavior, it is possible to set the arbitraryness in learning the policy function While being able to improve and respond | correspond to a continuous space or a high dimensional space, control of the search behavior by an agent can be performed easily. Furthermore, the state value function is updated so that the error function is minimized, and the policy function is updated such that the state value function is maximized, so that the policy function suppresses the behavior from becoming unstable. While it can be updated in a stable state.

本発明において、情報は、エージェントが所定周期(制御周期ΔT)で最適な行動aを複数回、実行したときに、環境9から所定周期で入力される情報の複数の時系列離散データst+iであり、第1価値関数のTD誤差は、情報の複数の時系列離散データst+iを用いて算出した報酬の複数の時系列離散データr(st+i)を含むように構成されていることが好ましい。 In the present invention, the information is a plurality of time-series discrete data s t + i of information input from the environment 9 at a predetermined cycle when the agent executes the optimum action a at a predetermined cycle (control cycle ΔT) a plurality of times. Preferably, the TD error of the first value function is configured to include a plurality of time-series discrete data r (s t + i ) of rewards calculated using a plurality of time-series discrete data s t + i of information .

この制御装置によれば、情報の複数の時系列離散データを用いて、第1価値関数の複数の時系列離散データが算出され、第1価値関数のTD誤差は、情報の複数の時系列離散データを用いて算出した報酬の複数の時系列離散データを含むように構成されており、そのようなTD誤差を含むように定義された誤差関数が最小になるように、第1価値関数が更新されるので、1つの情報の時系列離散データを用いた場合と比べて、過去に行った行動の第1価値関数による評価をより迅速に第1価値関数の更新に反映させることができ、その更新作業がより促進されることで、学習速度をさらに向上させることができる。   According to this control device, the plurality of time series discrete data of the first value function is calculated using the plurality of time series discrete data of the information, and the TD error of the first value function is the plurality of time series discrete of the information The first value function is updated such that it is configured to include multiple time series discrete data of rewards calculated using the data, and the error function defined to include such TD errors is minimized. As compared with the case of using time-series discrete data of one piece of information, it is possible to more quickly reflect the evaluation of the behavior performed in the past by the first value function in the update of the first value function, By further promoting the update work, the learning speed can be further improved.

本発明は、上記の行動決定システムシステム10,10A〜10Cを備え、自動運転車両3を制御する自動運転制御装置1,1A〜1Cにおいて、情報は、自動運転車両3の動作状況及び動作環境を表す状況データdata_sであり、行動は、自動運転車両3を制御するための目標値又は指令値であることが好ましい。   The present invention includes the above-described behavior determination system systems 10 and 10A to 10C, and in the automatic driving control devices 1 and 1A to 1C controlling the autonomous driving vehicle 3, the information indicates the operating condition and the operating environment of the autonomous driving vehicle 3. It is preferable that it is situation data data_s to represent, and action is a target value or command value for controlling the autonomous driving vehicle 3.

この制御装置によれば、自動運転車両の動作状況及び動作環境を表す状況データを用いて、第1価値関数が算出され、第1価値関数を用いて、自動運転車両を制御するための目標値又は指令値が最適な値に決定されるので、自動運転車両の制御精度を向上させることができる。   According to this control device, the first value function is calculated using the operating condition and operating environment of the autonomous driving vehicle, and the target value for controlling the autonomous driving vehicle using the first value function. Alternatively, since the command value is determined to be the optimal value, the control accuracy of the autonomous driving vehicle can be improved.

本発明の第1実施形態に係る自動運転制御装置及び行動決定システムと、これらを適用した自動運転車両の構成を模式的に示す図である。BRIEF DESCRIPTION OF THE DRAWINGS It is a figure which shows typically the structure of the automatic driving | operation control apparatus which concerns on 1st Embodiment of this invention, the action determination system, and the autonomous driving vehicle to which these were applied. 第1実施形態の行動決定システムの機能的な構成を示すブロック図である。It is a block diagram which shows the functional structure of the action determination system of 1st Embodiment. 第1実施形態の誤差関数を用いた場合と、従来の誤差関数を用いた場合の行動価値関数の学習速度を説明するための図である。It is a figure for demonstrating the learning speed of the action value function at the time of using the error function of 1st Embodiment, and the conventional error function. 学習制御を示すフローチャートである。It is a flowchart which shows learning control. 自動運転制御を示すフローチャートである。It is a flowchart which shows automatic operation control. 自動運転車両が追い越しを実行するときの状態を示す図である。It is a figure which shows a state when an autonomous driving vehicle performs overtaking. 第2実施形態の行動決定システムの機能的な構成を示すブロック図である。It is a block diagram which shows the functional structure of the action determination system of 2nd Embodiment. 第3実施形態の行動決定システムの機能的な構成を示すブロック図である。It is a block diagram which shows the functional structure of the action determination system of 3rd Embodiment. 第4実施形態の行動決定システムの機能的な構成を示すブロック図である。It is a block diagram which shows the functional structure of the action determination system of 4th Embodiment.

以下、図面を参照しながら、本発明の第1実施形態に係る自動運転制御装置及び行動決定システムについて説明する。本実施形態の自動運転制御装置は、後述する行動決定システムを備えており、まず、自動運転制御装置について説明する。なお、本実施形態では、自動運転制御装置がエージェントに相当する。   An automatic driving control apparatus and an action determination system according to a first embodiment of the present invention will be described below with reference to the drawings. The automatic driving control apparatus of the present embodiment includes an action determination system to be described later. First, the automatic driving control apparatus will be described. In the present embodiment, the automatic driving control device corresponds to an agent.

図1に示すように、この自動運転制御装置1は、四輪タイプの自動運転車両3に適用されたものであり、ECU2を備えている。なお、以下の説明では、この自動運転車両3を「自車両3」という。   As shown in FIG. 1, the automatic driving control device 1 is applied to a four-wheel type automatic driving vehicle 3 and includes an ECU 2. In the following description, the autonomous driving vehicle 3 is referred to as "the vehicle 3".

このECU2には、状況検出装置4、原動機5及びアクチュエータ6が電気的に接続されている。この状況検出装置4は、カメラ、ミリ波レーダー、レーザーレーダ、ソナー、GPS及び各種のセンサなどで構成されており、自車両3の動作状況及び動作環境を表す状況データdata_sをECU2に出力する。なお、本実施形態では、状況データdata_sが情報及び環境の状態に相当する。   The situation detection device 4, the motor 5 and the actuator 6 are electrically connected to the ECU 2. The situation detection device 4 includes a camera, a millimeter wave radar, a laser radar, a sonar, a GPS, various sensors, and the like, and outputs situation data data_s representing an operation situation and an operation environment of the vehicle 3 to the ECU 2. In the present embodiment, the situation data data_s corresponds to the information and the state of the environment.

この場合、状況データdata_sは、車速、操舵角、ヨーレート、加速度、躍度、道路端の座標、他車両との相対位置及び他車両との相対速度などを含む数十種類のデータで構成されている。   In this case, the situation data data_s is composed of dozens of types of data including vehicle speed, steering angle, yaw rate, acceleration, jerk, road edge coordinates, relative position with other vehicles, relative velocity with other vehicles, etc. There is.

原動機5は、例えば、電気モータなどで構成されており、後述するように、ECU2によって自動運転制御が実行される際、原動機5の動作状態が制御される。   The prime mover 5 is, for example, an electric motor or the like, and as described later, when the ECU 2 executes automatic operation control, the operation state of the prime mover 5 is controlled.

また、アクチュエータ6は、制動用アクチュエータ及び操舵用アクチュエータなどで構成されており、後述するように、自動運転制御を実行するときに、アクチュエータ6の動作が制御される。   The actuator 6 is composed of a braking actuator, a steering actuator, and the like, and the operation of the actuator 6 is controlled when performing automatic operation control as described later.

一方、ECU2は、CPU、RAM、ROM、E2PROM、I/Oインターフェース及び各種の電気回路(いずれも図示せず)などからなるマイクロコンピュータで構成されており、上述した状況検出装置4からの状況データdata_sなどに基づいて、後述するように、自動運転制御などを実行する。   On the other hand, the ECU 2 is constituted by a microcomputer comprising a CPU, RAM, ROM, E2PROM, I / O interface, various electric circuits (all not shown), etc., and status data from the status detection device 4 described above Based on data_s etc., automatic operation control etc. are performed so that it may mention later.

なお、本実施形態では、ECU2が第1価値関数算出手段、行動決定手段、第1価値関数更新手段、第2価値関数算出手段及び第2価値関数更新手段に相当する。   In the present embodiment, the ECU 2 corresponds to first value function calculation means, action determination means, first value function update means, second value function calculation means, and second value function update means.

次に、図2を参照しながら、本実施形態の自動運転制御装置1における行動決定システム10について説明する。同図において、環境9は、情報としての行動aが入力されたときに、状態st+1を出力する系であり、この行動決定システム10では、環境9から入力される状態s,st+1を用いて、以下に述べる算出アルゴリズムにより、行動aが算出される。 Next, the action determination system 10 in the automatic driving control device 1 of the present embodiment will be described with reference to FIG. In the figure, the environment 9, when the action a t as information is entered, a system that outputs a state s t + 1, in the action determining system 10, the state s t input from the environment 9, s t + 1 using, by the calculation algorithm described below, action a t is calculated.

ここで、状態s及び行動aは、後述する所定の制御周期ΔT(例えば10msec)に同期してサンプリング又は算出された離散データであり、状態s及び行動aの添字t(tは正の整数)は、離散データの制御時刻(すなわちサンプリング/算出タイミング)を表している。 Here, the state s t and the action a t is a discrete data sampled or calculated in synchronism with a predetermined control period ΔT to be described later (e.g. 10 msec), the subscript t (t in state s t and the action a t is A positive integer represents the control time (that is, sampling / calculation timing) of discrete data.

具体的には、状態sの添字tは、今回の制御タイミングでサンプリング/算出された値(以下「今回値」という)であることを、状態st+1の添字t+1は、次回の制御タイミングでサンプリング/算出されると推定される値(以下「次回値」という)であることをそれぞれ示している。この点は、以下に述べる離散データにおいても同様である。 Specifically, the subscript t of the state s t is that the current control timing in the sampling / calculated value (hereinafter referred to as "current value"), the subscript t + 1 of the state s t + 1 is the next control timing It indicates that it is a value estimated to be sampled / calculated (hereinafter referred to as “next value”). The same applies to the discrete data described below.

なお、実際の制御では、状態の次回値st+1は、今回の制御タイミングでサンプリング/算出することはできないので、今回の制御タイミングでサンプリング/算出された状態sの値が状態の次回値st+1として用いられるとともに、前回の制御タイミングでサンプリング/算出された状態の次回値st+1が状態の今回値sとして用いられる。また、以下の説明では、各離散データにおける添字を適宜省略する。 In the actual control, since the next value s t + 1 of the state can not be sampled / calculated at the current control timing, the value of the state s sampled / calculated at the current control timing is the next value s t + 1 of the state And the next value s t + 1 of the state sampled / calculated at the previous control timing is used as the current value s t of the state. Also, in the following description, subscripts in each discrete data are appropriately omitted.

図2に示すように、行動決定システム10は、行動価値算出部11、方策算出部12、最大値選択部13、ターゲット値算出部14、報酬算出部15及び誤差関数算出部16を備えている。この行動決定システム10の場合、これらの要素11〜16は、具体的にはECU2によって構成されており、この点は後述する行動決定システム10A〜10Cにおいても同様である。   As shown in FIG. 2, the action determination system 10 includes an action value calculation unit 11, a policy calculation unit 12, a maximum value selection unit 13, a target value calculation unit 14, a reward calculation unit 15, and an error function calculation unit 16. . In the case of this action determination system 10, these elements 11-16 are specifically comprised by ECU2, This point is the same also in action determination systems 10A-10C mentioned later.

この行動価値算出部11は、行動価値関数Qを算出するものであり、状態sを入力とし、行動価値関数Qを出力とするQ算出用のニューラルネットワーク(図示せず)を備えている。このQ算出用のニューラルネットワークでは、値jをj=1〜n(nは複数)と規定したときに、状態の今回値sを用いて、n個の行動価値関数Q(s,a)が算出され、これが方策算出部12に出力される。 The action value calculation unit 11 calculates an action value function Q, and includes a neural network (not shown) for Q calculation which receives the state s as an input and outputs the action value function Q. In this neural network for calculating Q, when the value j is defined as j = 1 to n (n is a plurality), n current value values s t of the state are used to obtain n action value functions Q (s t , a j ) is calculated and output to the policy calculation unit 12.

さらに、このQ算出用のニューラルネットワークでは、状態の次回値st+1を用いて、n個の行動価値関数Q(st+1,aj+1)が算出され、これが最大値選択部13に出力される。 Further, in the neural network for calculating Q, n action value functions Q ( st + 1 , aj + 1 ) are calculated using the next value s t + 1 of the state, and this is output to the maximum value selection unit 13.

これに加えて、行動価値算出部11では、誤差関数算出部16から入力される誤差関数Lに基づいて、バックプロパゲーション法をはじめとする勾配法によって誤差勾配を計算し、誤差関数Lが最小になるように、Q算出用のニューラルネットワークのパラメータθ(重みなど)が前述した制御周期ΔTで更新される。   In addition to this, the action value calculation unit 11 calculates the error gradient by the gradient method including the back propagation method based on the error function L input from the error function calculation unit 16 and the error function L is minimum. The parameter θ (such as weight) of the neural network for Q calculation is updated with the control period ΔT as described above.

さらに、このパラメータθの更新回数が所定値(例えば値10000)に達する毎に、その時点のパラメータθが、更新用のパラメータθ ̄としてターゲット値算出部14に出力される。なお、本実施形態では、行動価値算出部11が第1価値関数算出手段及び第1価値関数更新手段に相当し、行動価値関数Qが第1価値関数に相当する。   Furthermore, every time the number of updates of the parameter θ reaches a predetermined value (for example, the value 10000), the parameter θ at that time is output to the target value calculation unit 14 as the parameter for update θ. In the present embodiment, the action value calculation unit 11 corresponds to a first value function calculation means and a first value function update means, and the action value function Q corresponds to a first value function.

また、方策算出部12では、行動価値算出部11から入力される行動価値関数のn個の値Q(s,a)に基づいて、ε-greedy法(所定手法)により、最適な行動aが決定される。すなわち、行動価値関数Q(s,a)が最大となる行動aを最適な行動aとして値1−εの確率で選択するとともに、n個の行動aから行動aを値εの確率でランダムに選択される。 Further, in the policy calculation unit 12, based on the n values Q (s t , a j ) of the action value function input from the action value calculation unit 11, the optimum action is performed by the ε-greedy method (predetermined method). a t is determined. In other words, action value function Q (s t, a j) is thereby selected with a probability value 1-epsilon as the optimum action a t the action a j with the maximum value of n actions a j from the action a t It is randomly selected with the probability of ε.

この場合、値εは0<ε<1が成立するように設定される。そして、方策算出部12では、選択された最適な行動aが環境9に出力され、選択された行動aに対応する行動価値関数Q(s,a)が、誤差関数算出部16に出力される。なお、本実施形態では、方策算出部12が行動決定手段に相当する。 In this case, the value ε is set such that 0 <ε <1 holds. Then, in the measure calculation section 12, the selected optimum action a t is output to the environment 9, action value function Q (s t, a t) corresponding to the selected action a t is the error function calculation unit 16 Output to In the present embodiment, the policy calculation unit 12 corresponds to action determination means.

さらに、最大値選択部13では、行動価値算出部11から入力された行動価値関数のn個の値Q(st+1,aj+1)を比較し、これらの中から最大値maxat+1Q(st+1,at+1)を選択した後、選択された最大値maxat+1Q(st+1,at+1)が誤差関数算出部16に出力される。これに加えて、選択された最大値maxat+1Q(st+1,at+1)に対応する行動の次回値at+1がターゲット値算出部14に出力される。 Furthermore, the maximum value selection unit 13 compares n values Q (s t + 1 , a j + 1 ) of the action value function input from the action value calculation unit 11 and, among these, the maximum value max at +1 Q (s t + 1) , At + 1 ), the selected maximum value max at + 1 Q (s t + 1 , at + 1 ) is output to the error function calculator 16. In addition to this, the next value a t + 1 of the action corresponding to the selected maximum value max at + 1 Q (s t + 1, a t + 1) is output to the target value calculator 14.

一方、ターゲット値算出部14では、ターゲット値算出用のニューラルネットワーク(図示せず)を用いて、行動価値関数Q(st+1,at+1)の目標となるターゲット値T(st+1,at+1)が算出される。このターゲット値算出用のニューラルネットワークは、状態の次回値st+1及び行動の次回値at+1が入力されたときに、ターゲット値T(st+1,at+1)を出力するように構成されており、そのパラメータは、前述したように、行動価値算出部11から入力される更新用のパラメータθ ̄に設定される。 On the other hand, the target value calculating section 14, using a neural network for calculating a target value (not shown), action value function Q (s t + 1, a t + 1) a target to become a target value T of the (s t + 1, a t + 1) Is calculated. Neural networks of this target value for calculation, the next time the value a t + 1 of the next value s t + 1 and the action state is input, is configured to output a target value T (s t + 1, a t + 1), The parameter is set to the updating parameter θ 1 input from the action value calculation unit 11 as described above.

それにより、ターゲット値算出用のニューラルネットワークのパラメータθ ̄は、前述したように、パラメータθの更新回数が所定値に達するまでの間、一定値に保持される。言い換えれば、行動価値関数Qの算出回数が所定値に達するまでの間、一定値に保持される。以上のように算出されたターゲット値T(st+1,at+1)は、誤差関数算出部16に出力される。なお、本実施形態では、ターゲット値算出部14が第2価値関数算出手段及び第2価値関数更新手段に相当し、ターゲット値Tが第2価値関数に相当する。 As a result, the parameter θ of the neural network for calculating the target value is held at a constant value until the number of updates of the parameter θ reaches a predetermined value, as described above. In other words, until the number of calculations of the action value function Q reaches a predetermined value, the value is held at a constant value. The target value T (s t + 1 , a t + 1 ) calculated as described above is output to the error function calculator 16. In the present embodiment, the target value calculation unit 14 corresponds to a second value function calculation unit and a second value function update unit, and the target value T corresponds to a second value function.

また、報酬算出部15では、状態の次回値st+1に基づき、所定の報酬算出アルゴリズムを用いて、報酬r(st+1)が算出され、これが誤差関数算出部16に出力される。 Further, the reward calculating unit 15 calculates the reward r (s t + 1 ) based on the next value s t + 1 of the state using a predetermined reward calculating algorithm, and this is output to the error function calculating unit 16.

一方、誤差関数算出部16では、以上のように算出された各種の値に基づき、下式(3),(4)により、誤差関数Lが算出される。   On the other hand, the error function calculator 16 calculates the error function L by the following equations (3) and (4) based on the various values calculated as described above.

上式(3)において、γは0<γ≦1が成立するように設定される割引率であり、上式(3)の右辺第1項は、行動価値関数QのTD誤差の2乗項である。また、右辺第2項のE(st+1,at+1)は、上式(4)に示すように定義される制約項であり、λは、調整パラメータである。この調整パラメータλは、値ε1を値0に近い正の所定値(例えば値0.0001)と規定した場合において、E(st+1,at+1)>ε1のときには、0<λ≦1が成立するように設定され、E(st+1,at+1)≦ε1のときには、λ=0に設定される。 In the above equation (3), γ is a discount rate set so that 0 <γ ≦ 1 holds, and the first term on the right side of the above equation (3) is a square term of the TD error of the action value function Q It is. Further, E (s t + 1 , a t + 1 ) in the second term on the right side is a constraint term defined as shown in the above equation (4), and λ is an adjustment parameter. This adjustment parameter λ satisfies 0 <λ ≦ 1 when E (s t + 1 , a t + 1 )> ε1 when the value ε1 is defined as a positive predetermined value close to the value 0 (for example, the value 0.0001). In the case of E (s t + 1 , a t + 1 ) ≦ ε 1 , λ = 0 is set.

本実施形態の場合、上式(3)を参照すると明らかなように、誤差関数Lは、行動価値関数QのTD誤差の2乗項と、調整パラメータと制約項の積λ・E(st+1,at+1)との和として算出される。 In the case of the present embodiment, as apparent from the above equation (3), the error function L is the product of the squared term of the TD error of the action value function Q, the product of the adjustment parameter and the constraint term λ · E (s t + 1 , At + 1 ).

この制約項E(st+1,at+1)は、行動価値関数とターゲット値の差分{Q(st+1,at+1)−T(st+1,at+1)}の2乗項であるので、学習初期などの、TD誤差が大きくなり、行動価値関数Qの更新が不安定な状態になった際でも、その不安定な変動を、行動価値関数Qと、所定回数の間、更新されないニューラルネットワークを用いて算出したターゲット値との差分Q−Tを含む制約項Eによって抑制することができる。すなわち、一般的に、行動価値関数Qの学習が不安定になる、TD誤差が大きい条件下でも、学習を安定して実行することができる。言い換えれば、差分Q−Tは、TD誤差が大きい条件下では、ターゲット値Tとの距離によってその不安定さを抑制するとともに、TD誤差が小さい条件下では、制約項Eが小さくなることで、学習の抑制度合いが低下し、効率的な学習を実行できるような効果を発揮する。 The constraint term E (s t + 1 , a t + 1 ) is a square term of the difference {Q (s t + 1 , a t + 1 ) −T (s t + 1 , a t + 1 )} between the action value function and the target value, so Even when the TD error becomes large and the update of the action value function Q becomes unstable, the unstable change is made using the action value function Q and the neural network which is not updated for a predetermined number of times It is possible to suppress by the constraint term E including the difference Q-T from the target value calculated as above. That is, in general, learning can be stably performed even under conditions where the learning of the action value function Q becomes unstable and the TD error is large. In other words, the difference Q-T suppresses the instability by the distance to the target value T under the condition that the TD error is large, and the constraint term E becomes small under the condition that the TD error is small, The degree of suppression of learning is reduced, and it is effective to execute efficient learning.

それにより、前述した式(1)のような、TD誤差の2乗項のみを成分とする誤差関数Lを用いた場合と比べて、学習初期などの、TD誤差が大きくなり、第1価値関数の更新が不安定な状態になった際でも、その影響を制約項E(st+1,at+1)の効果によって緩和しながら、行動価値算出部11におけるQ算出用のニューラルネットワークのパラメータθを安定した状態で更新でき、学習の安定性を確保できることになる。 As a result, compared with the case where the error function L having only the square term of the TD error as a component as the equation (1) described above is used, the TD error such as the learning initial becomes larger, and the first value function Even when the update of the parameter becomes unstable, the parameter θ of the neural network for Q calculation in the action value calculation unit 11 is stabilized while alleviating the influence by the effect of the constraint term E ( st + 1 , at + 1 ). It is possible to update in a fixed state, and to ensure the stability of learning.

次に、図3を参照しながら、本実施形態の式(3),(4)に示す誤差関数Lを用いた場合と、前述した式(2)の誤差関数Lを用いた場合の行動価値関数Qの学習速度について説明する。同図において、実線で示す曲線は、本実施形態の式(3),(4)に示す誤差関数Lを用いて、スコア獲得形式の市販のコンピュータタスクを自動で学習した学習結果の一例を表している。   Next, referring to FIG. 3, action values in the case of using the error function L shown in the equations (3) and (4) of this embodiment and in the case of using the error function L of the equation (2) described above The learning speed of the function Q will be described. In the same figure, a curve shown by a solid line represents an example of a learning result of automatically learning a commercially available computer task in a score acquisition form using the error function L shown in the equations (3) and (4) of this embodiment. ing.

また、破線で示す曲線は、比較のために、前述した式(2)の誤差関数Lを用いたときの学習結果を表している。両者を比較すると明らかなように、本実施形態の誤差関数Lを用いた方が、前述した式(2)の誤差関数Lを用いたときよりもスコアの上昇勾配が大きくなっており、行動価値関数Qの学習速度が上昇していることが判る。これは、前述したように、式(2)の誤差関数Lの場合、ターゲット値TがTD誤差に含まれているのに対して、本実施形態の式(3),(4)の誤差関数Lの場合、ターゲット値TがTD誤差に含まれていないことによる。   Further, a curve indicated by a broken line represents a learning result when the error function L of the above-mentioned equation (2) is used for comparison. As is clear from a comparison of the two, when using the error function L of the present embodiment, the rising gradient of the score is larger than when using the error function L of the above-mentioned equation (2), It can be seen that the learning speed of the function Q is rising. This is because, as described above, in the case of the error function L of the equation (2), the target value T is included in the TD error, whereas the error function of the equations (3) and (4) of this embodiment In the case of L, it is because the target value T is not included in the TD error.

次に、図4を参照しながら、学習制御について説明する。この学習制御は、前述した図2の算出手法によって、行動aを算出するとともに、Q算出用のニューラルネットワークのパラメータθを更新するものであり、ECU2によって、前述した所定の制御周期ΔTで実行される。   Next, learning control will be described with reference to FIG. In this learning control, the action a is calculated by the calculation method of FIG. 2 described above, and the parameter θ of the neural network for Q calculation is updated, and is executed by the ECU 2 at the predetermined control period ΔT described above. Ru.

なお、以下の説明において算出される各種の値は、ECU2のE2PROM内に記憶されるものとする。また、以下の説明では、図6に示すように、自車両3が走行車線を走行中で、かつ先行車7a,7bが走行車線及び追い越し車線に存在する条件下において、先行車7aの追い越しを実行するときの学習制御の一例について説明する。   Note that various values calculated in the following description are stored in the E2PROM of the ECU 2. In the following description, as shown in FIG. 6, under the condition that the host vehicle 3 is traveling in the traveling lane and the leading vehicles 7a and 7b exist in the traveling lane and the overtaking lane, the passing of the preceding vehicle 7a is performed. An example of learning control when executing will be described.

まず、状態sとしての、状況検出装置4からの状況データdata_sを読み込む(図4/STEP1)。この学習制御では、今回の制御タイミングで読み込まれた状況データdata_sの値を、状態の次回値st+1として用いるとともに、前回の制御タイミングで読み込まれた状況データdata_sの値を、状態の今回値sとして用いる。 First, the situation data data_s from the situation detection device 4 as the state s is read (FIG. 4 / STEP 1). In this learning control, the value of the situation data data_s read at the current control timing is used as the next value st + 1 of the state, and the value of the situation data data_s read at the previous control timing is the current value s of the state Used as t .

次いで、前述したように、Q算出用のニューラルネットワークを用いて、状態の次回値st+1に基づき、n個の行動価値関数Q(st+1,aj+1)を算出するとともに、状態の今回値sに基づき、n個の行動価値関数Q(s,a)を算出する(図4/STEP2)。 Next, as described above, using the neural network for Q calculation, n action value functions Q ( st + 1 , aj + 1 ) are calculated based on the next value s t + 1 of the state, and the current value s of the state is s Based on t , n action value functions Q (s t , a j ) are calculated (FIG. 4 / STEP 2).

次に、前述したように、n個の行動価値関数Q(s,a)に基づいて、ε-greedy法により、最適な行動aを決定する(図4/STEP3)。この場合の行動aは、自車両3の操舵量及び加減速度の指令値として決定される。 Next, as described above, based on the n action value functions Q (s t , a j ), the optimal action a is determined by the ε-greedy method (FIG. 4 / STEP 3). The action a in this case is determined as the steering amount and acceleration / deceleration command value of the vehicle 3.

その後、前述したように、ターゲット値算出用のニューラルネットワークを用いて、ターゲット値T(st+1,at+1)を算出する(図4/STEP5)。 Thereafter, as described above, the target value T ( st + 1 , at + 1 ) is calculated using the neural network for target value calculation (FIG. 4 / STEP 5).

次いで、前述したように、所定の報酬算出アルゴリズムを用いて、報酬r(st+1)を算出する(図4/STEP6)。 Next, as described above, the reward r (s t + 1 ) is calculated using a predetermined reward calculation algorithm (FIG. 4 / STEP 6).

次に、前述した式(3),(4)により、誤差関数Lを算出する(図4/STEP7)   Next, the error function L is calculated according to the equations (3) and (4) described above (FIG. 4 / STEP 7)

そして、この誤差関数Lに基づき、前述したように、バックプロパゲーション法により、Q算出用のニューラルネットワークのパラメータθを更新する(図4/STEP8)。その際、パラメータθを更新回数が所定値に達したときには、その時点のパラメータθを更新用のパラメータθ ̄に設定する。以上のように、パラメータθを更新した後、本処理を終了する。   Then, based on the error function L, as described above, the parameter θ of the neural network for Q calculation is updated by the back propagation method (FIG. 4 / STEP 8). At that time, when the number of updates of the parameter θ reaches a predetermined value, the parameter θ at that time is set to the parameter for update θ. As described above, after the parameter θ is updated, the present process ends.

次に、図5を参照しながら、自動運転制御について説明する。この自動運転制御は、自車両3の運転状態を制御するものであり、ECU2によって、前述した所定の制御周期ΔT(所定周期)で実行される。なお、以下の説明では、前述した図6に示すように、先行車7aの追い越しを実行するときの自動運転制御の一例について説明する。   Next, automatic operation control will be described with reference to FIG. The automatic driving control is to control the driving state of the host vehicle 3 and is executed by the ECU 2 in the above-described predetermined control cycle ΔT (predetermined cycle). In the following description, as shown in FIG. 6 described above, an example of automatic operation control when executing passing of the leading vehicle 7a will be described.

まず、E2PROM内に記憶されている行動a、すなわち自車両3の操舵量の指令値及び加減速度の指令値を読み込む(図5/STEP20)。なお、本実施形態では、操舵量の指令値及び加減速度の指令値が行動aに相当する。   First, the action a stored in the E2PROM, that is, the command value of the steering amount of the host vehicle 3 and the command value of the acceleration / deceleration are read (FIG. 5 / STEP 20). In the present embodiment, the command value of the steering amount and the command value of the acceleration / deceleration correspond to the action a.

次いで、自車両3の加減速度が読み込んだ指令値になるように、原動機5を駆動する(図5/STEP21)。   Next, the motor 5 is driven so that the acceleration / deceleration of the vehicle 3 becomes the read command value (FIG. 5 / STEP 21).

次に、自車両3の操舵量が読み込んだ指令値になるように、アクチュエータ6を駆動する(図5/STEP22)。その後、本処理を終了する。   Next, the actuator 6 is driven so that the steering amount of the host vehicle 3 becomes the read command value (FIG. 5 / STEP 22). Thereafter, the process ends.

以上のように、本実施形態の行動決定システム10によれば、環境9からの状態sを用いて、行動価値関数Qが算出され、行動価値関数Qを用いて、エージェントによる最適な行動aが決定される。さらに、式(3),(4)に示すように、誤差関数Lが、行動価値関数QのTD誤差と、行動価値関数Qとターゲット値Tとの差分の2乗項である制約項Eとを含むように定義され、この誤差関数Lが最小になるように、行動価値関数Qの算出に用いるニューラルネットワークのパラメータθが更新される。   As described above, according to the action determination system 10 of the present embodiment, the action value function Q is calculated using the state s from the environment 9, and using the action value function Q, the optimal action a by the agent is It is determined. Furthermore, as shown in equations (3) and (4), the error function L is a TD error of the action value function Q, and a constraint term E which is a square term of the difference between the action value function Q and the target value T The parameter θ of the neural network used to calculate the action value function Q is updated such that the error function L is minimized.

このターゲット値Tの算出に用いるニューラルネットワークのパラメータθ ̄は、パラメータθの更新回数が所定値に達するまでの間に、更新されることなく一定値に保持されるので、前述した式(1)の誤差関数Lを用いた場合と比べて、TD誤差が大きく、行動価値関数Qの更新が不安定な状態にあるときでも、その影響を制約項Eの効果によって緩和しながら、ニューラルネットワークのパラメータθすなわち行動価値関数Qを更新することができ、学習の安定性を確保することができる。これに加えて、ターゲット値Tが誤差関数LのTD誤差に含まれていないので、前述した式(2)の誤差関数Lを用いた場合と比べて、行動価値関数Qの更新速度すなわち学習速度を向上させることができる。   Since the parameter θ of the neural network used to calculate the target value T is held at a constant value without being updated until the number of updates of the parameter θ reaches a predetermined value, the equation (1) described above is used. Even when the TD error is large and the update of the action value function Q is in an unstable state as compared with the case where the error function L of L is used, the parameters of the neural network are mitigated by the effect of the constraint term E. That is, the action value function Q can be updated, and learning stability can be ensured. In addition to this, since the target value T is not included in the TD error of the error function L, the updating speed of the action value function Q, that is, the learning speed is higher than in the case of using the error function L of Equation (2) described above. Can be improved.

また、行動価値関数Qという1つの関数の算出結果を用いて、最適な行動aを決定することができるので、複数の関数を用いる場合と比べて、演算負荷を低減することができる。さらに、行動価値関数Qを安定した状態で更新できることにより、学習を効率的に実行することができる。   In addition, since the optimal action a can be determined using the calculation result of one function of the action value function Q, the operation load can be reduced as compared with the case of using a plurality of functions. Furthermore, the ability to update the action value function Q in a stable state enables efficient execution of learning.

さらに、本実施形態の自動運転制御装置1によれば、図4の学習制御において、以上のような行動決定システム10の手法を用いながら、自車両3の操舵量及び加減速度の指令値を最適な値に決定することができるので、自車両3の制御精度を向上させることができる。   Furthermore, according to the automatic driving control device 1 of the present embodiment, the command value of the steering amount and the acceleration / deceleration of the own vehicle 3 is optimized while using the method of the action determination system 10 as described above in the learning control of FIG. Since the value can be determined, the control accuracy of the vehicle 3 can be improved.

なお、図4の学習制御は、行動aとして、自車両3の操舵量及び加減速度の指令値を決定した例であるが、これに代えて、行動aとして、自車両3の走行軌道を決定してもよい。その場合には、図5の自動運転制御において、決定された走行軌道で自車両3が走行するように、原動機5及びアクチュエータ6を制御すればよい。   The learning control in FIG. 4 is an example in which the steering amount and acceleration / deceleration command values of the host vehicle 3 are determined as the action a, but instead, the traveling track of the host vehicle 3 is determined as the action a. You may In that case, in the automatic driving control of FIG. 5, the motor 5 and the actuator 6 may be controlled so that the vehicle 3 travels on the determined traveling track.

また、第1実施形態は、行動価値関数算出部11において、行動価値関数Qをニューラルネットワークで近似して、行動価値関数Qの値を算出した例であるが、行動価値関数Qを近似する関数はこれに限定されるものではない。例えば、行動価値関数Qを近似する関数として、状態sを表す特徴ベクトルと基底関数の線形結合で表現したものを用いてもよい。その場合には、前述した式(3),(4)で定義される誤差関数Lの値が最小になるように、重みの値を更新すればよい。   The first embodiment is an example in which the action value function calculation unit 11 calculates the value of the action value function Q by approximating the action value function Q with a neural network. Is not limited to this. For example, as a function approximating the action value function Q, one represented by a linear combination of a feature vector representing the state s and a basis function may be used. In that case, the value of the weight may be updated so that the value of the error function L defined by the above-mentioned equations (3) and (4) is minimized.

さらに、第1実施形態は、本発明の行動決定システムを自動運転車両を制御する自動運転制御装置に適用した例であるが、本発明の行動決定システムはこれに限らず、様々な産業機器を制御するシステムに適用可能である。例えば、本発明の行動決定システムをロボットを制御するシステムに適用してもよく、自動運転される船舶などの産業機器を制御するシステムに適用してもよい。また、本発明の行動決定システムを、2,3輪タイプの自動運転車両や5輪以上の自動運転車両の制御に適用してもよい。   Furthermore, although the first embodiment is an example in which the behavior determination system of the present invention is applied to an automatic driving control apparatus for controlling an autonomous driving vehicle, the behavior determination system of the present invention is not limited thereto, and various industrial devices It is applicable to the system to control. For example, the behavior determination system of the present invention may be applied to a system that controls a robot, and may be applied to a system that controls an industrial device such as an autonomously operated ship. In addition, the action determination system of the present invention may be applied to control of two-and-three-wheel type automatic driving vehicles and five or more automatic driving vehicles.

一方、第1実施形態は、所定手法として、ε-greedy法を用いた例であるが、本発明の 所定手法はこれに限らず、行動価値関数が最大となる行動を最適な行動として選択できるものであればよい。例えば、所定手法として、特定分布に基づくソフトマックス手法や、アニーリングを組み合わせた手法などを用いてもよい。   On the other hand, although the first embodiment is an example using the ε-greedy method as the predetermined method, the predetermined method of the present invention is not limited to this, and the action with the largest action value function can be selected as the optimum action. What is necessary. For example, as a predetermined method, a soft max method based on a specific distribution, a method combining annealing, or the like may be used.

次に、図7を参照しながら、第2実施形態に係る自動運転制御装置1A(エージェント)について説明する。この自動運転制御装置1Aの場合、第1実施形態の自動運転制御装置1と比較して、図7に示す行動決定システム10Aの構成のみが異なっているので、以下、異なる点を中心に説明する。また、第1実施形態と同一の構成に対しては同じ符号を付すとともに、その説明を適宜、省略する。   Next, an automatic driving control apparatus 1A (agent) according to a second embodiment will be described with reference to FIG. In the case of the automatic driving control device 1A, only the configuration of the behavior determining system 10A shown in FIG. 7 is different from that of the automatic driving control device 1 of the first embodiment. . In addition, while attaching the identical mark concerning the constitution which is identical with 1st execution form, that explanation is abbreviated appropriately.

この行動決定システム10Aの場合、前述した図2の行動決定システム10と比較すると明らかなように、行動決定システム10におけるターゲット値算出部14に代えて、ターゲット値算出部14Aを備えている点が異なっている。   In the case of the action determination system 10A, as apparent from comparison with the action determination system 10 of FIG. 2 described above, the target value calculation unit 14A is provided instead of the target value calculation unit 14 in the action determination system 10 It is different.

このターゲット値算出部14Aでは、行動価値関数Qの近似関数として、パラメータが固定されたニューラルネットワークを用いて、ターゲット値Tref(st+1,at+1)が算出され、このターゲット値Tref(st+1,at+1)が誤差関数算出部16Aに出力される。 In the target value calculation unit 14A, a target value Tref (s t + 1 , a t + 1 ) is calculated using a neural network with fixed parameters as an approximation function of the action value function Q, and this target value Tref (s t + 1 , a t + 1 ) is output to the error function calculator 16A.

この場合、固定されたパラメータの値としては、他の自動運転制御装置において、Q算出用のニューラルネットワークのパラメータの学習が十分に進行した状態となっているときのパラメータの値が用いられる。なお、本実施形態では、ターゲット値Trefが固定された関数に相当する。   In this case, as the value of the fixed parameter, the value of the parameter when learning of the parameter of the neural network for Q calculation has progressed sufficiently in the other automatic driving control devices is used. In the present embodiment, the target value Tref corresponds to a fixed function.

また、誤差関数算出部16Aでは、下式(5),(6)により、誤差関数Lが算出される。   The error function calculator 16A calculates the error function L by the following equations (5) and (6).

以上のように、本実施形態の行動決定システム10Aによれば、誤差関数Lの制約項Eの算出において、ターゲット値Trefが用いられる。このターゲット値Trefは、パラメータが固定されたニューラルネットワークを用いて算出され、この固定されたパラメータは、他の自動運転制御装置において、Q算出用のニューラルネットワークのパラメータの学習が十分に進行した状態となっているときのパラメータの値であるので、TD誤差が大きく、行動価値関数Qの更新が不安定な状態になったときでも、その影響を制約項Eの効果によって緩和しながら、行動価値関数Qを安定した状態で更新することができ、学習の安定性を確保することができる。さらに、ターゲット値TrefがTD誤差に含まれていないので、前述した式(2)の誤差関数を用いた場合と比べて、行動価値関数Qの更新速度すなわち学習速度を向上させることができる。   As described above, according to the behavior determination system 10A of the present embodiment, the target value Tref is used in the calculation of the constraint term E of the error function L. The target value Tref is calculated using a neural network with fixed parameters, and this fixed parameter is a state in which learning of parameters of the neural network for Q calculation has progressed sufficiently in other automatic operation control devices. Since the value of the parameter when the value of Q is large, the TD error is large, and even when the update of the action value function Q becomes unstable, the action value is mitigated by the effect of the constraint term E, the action value The function Q can be updated in a stable state, and learning stability can be ensured. Furthermore, since the target value Tref is not included in the TD error, the update speed of the action value function Q, that is, the learning speed can be improved as compared with the case where the error function of the equation (2) described above is used.

なお、第2実施形態は、固定された関数として、ターゲット値Trefを用いた例であるが、本発明の固定された関数はこれに限らず、独立変数以外のパラメータが固定された関数であればよい。例えば、固定された関数を、複数の他の自動運転制御装置において、Q算出用のニューラルネットワークの学習が十分に進行したときのパラメータθの複数の値の平均値を算出し、この平均値をパラメータとするニューラルネットワークを用いて算出した値としてもよい。   Although the second embodiment is an example using the target value Tref as a fixed function, the fixed function of the present invention is not limited to this, and it may be a function in which parameters other than independent variables are fixed. Just do it. For example, in a plurality of other automatic driving control devices with fixed functions, an average value of a plurality of values of the parameter θ when learning of the neural network for Q calculation has sufficiently progressed is calculated, and this average value is calculated. It may be a value calculated using a neural network as a parameter.

次に、図8を参照しながら、第3実施形態に係る自動運転制御装置1B(エージェント)について説明する。この自動運転制御装置1Bの場合、第1実施形態の自動運転制御装置1と比較して、図8に示す行動決定システム10Bの構成のみが異なっているので、以下、異なる点を中心に説明する。また、第1実施形態と同一の構成に対しては同じ符号を付すとともに、その説明を適宜、省略する。   Next, an automatic driving control apparatus 1B (agent) according to a third embodiment will be described with reference to FIG. In the case of this automatic driving control device 1B, only the configuration of the action determination system 10B shown in FIG. 8 is different from that of the automatic driving control device 1 of the first embodiment, and therefore different points will be mainly described below. . In addition, while attaching the identical mark concerning the constitution which is identical with 1st execution form, that explanation is abbreviated appropriately.

この行動決定システム10Bは、行動算出部20、行動価値算出部11B、ターゲット行動算出部21、ターゲット値算出部14B、報酬算出部15及び誤差関数算出部16Bを備えている。   The action determination system 10B includes an action calculation unit 20, an action value calculation unit 11B, a target action calculation unit 21, a target value calculation unit 14B, a reward calculation unit 15, and an error function calculation unit 16B.

この行動算出部20は、方策関数を用いて、行動aを算出するものである。この方策関数は、環境情報から最適な行動出力や、その確かさを算出ものであり、この行動算出部20では、方策関数の近似関数として、行動算出用のニューラルネットワーク(図示せず)が用いられる。この行動算出用のニューラルネットワークの場合、状態sを入力とし、行動aを出力とするものであり、具体的には、状態の今回値sを用いて行動aの今回値aが算出され、これが環境9及び行動価値算出部11Bに出力される。 The action calculation unit 20 calculates an action a using a policy function. This measure function is for calculating an optimal action output and its certainty from environmental information. In this action calculation unit 20, a neural network (not shown) for action calculation is used as an approximation function of the measure function. Be In the case of the neural network for this action calculation, the state s is input and the action a is output. Specifically, the current value a t of the action a is calculated using the current value s t of the state This is output to the environment 9 and the action value calculation unit 11B.

さらに、行動算出用のニューラルネットワークでは、状態の次回値st+1を用いて、行動aの次回値at+1が算出され、これが行動価値算出部11Bに出力される。 Furthermore, the neural network for Behavior calculation, using the next value s t + 1 state, the next value a t + 1 of the action a is calculated, which is output to the activation level calculating unit 11B.

これに加えて、行動算出部20では、バックプロパゲーション法により、行動価値算出部11Bから入力される行動価値関数Q(s,a)が最大になるように、行動算出用のニューラルネットワークのパラメータφ(重みなど)が前述した制御周期ΔTで更新されるとともに、その更新タイミングに同期して、更新されたパラメータφがターゲット行動算出部21に出力される。なお、本実施形態では、ECU2が方策関数更新手段に相当し、行動算出部20が行動決定手段及び方策関数更新手段に相当する。 In addition to this, in the action calculation unit 20, a neural network for action calculation is performed so that the action value function Q (s t , a t ) input from the action value calculation unit 11B is maximized by the back propagation method. The parameter φ (such as weight) is updated at the control period ΔT described above, and the updated parameter φ is output to the target behavior calculation unit 21 in synchronization with the update timing. In the present embodiment, the ECU 2 corresponds to a measure function update means, and the action calculation unit 20 corresponds to an action determination means and a measure function update means.

また、行動価値算出部11Bは、ある状態sと、そのときに行った行動aの評価である行動価値関数Qを算出するものであり、状態価値関数としての行動価値関数Qを近似したQ算出用のニューラルネットワーク(図示せず)を備えている。この行動決定システム10Bの場合、行動算出部20及び行動価値算出部11Bを組み合わせて用いることで、状態の今回値stから行動価値関数Q(st,at)が算出され、これが誤差関数算出部16B及び行動算出部20に出力される。   Further, the action value calculation unit 11B calculates an action value function Q that is an evaluation of a certain state s and the action a performed at that time, and calculates Q by approximating the action value function Q as a state value function. Neural network (not shown). In the case of the action determination system 10B, the action value function Q (st, at) is calculated from the current value st of the state by using the action calculation unit 20 and the action value calculation unit 11B in combination, and this is the error function calculation unit 16B. And the behavior calculation unit 20.

さらに、このQ算出用のニューラルネットワークでは、状態の次回値st+1を用いて、行動価値関数Q(st+1,at+1)が算出され、これが誤差関数算出部16Bに出力される。 Further, in the neural network for calculating Q, the action value function Q ( st + 1 , at + 1 ) is calculated using the next value s t + 1 of the state, and this is output to the error function calculator 16B.

これに加えて、行動価値算出部11Bでは、前述した行動価値算出部11と同様に、バックプロパゲーション法により、誤差関数算出部16Bから入力される誤差関数Lが最小になるように、Q算出用のニューラルネットワークのパラメータθが前述した制御周期ΔTで更新されるとともに、その更新タイミングに同期して、更新されたパラメータθがターゲット行動算出部21に出力される。なお、本実施形態では、行動価値算出部11Bが第1価値関数算出手段及び第1価値関数更新手段に相当する。   In addition to this, in the action value calculation unit 11B, as in the action value calculation unit 11 described above, Q calculation is performed so that the error function L input from the error function calculation unit 16B is minimized by the back propagation method. The parameter θ of the neural network for use is updated at the control period ΔT described above, and the updated parameter θ is output to the target behavior calculation unit 21 in synchronization with the update timing. In the present embodiment, the action value calculation unit 11B corresponds to first value function calculation means and first value function update means.

一方、前述したターゲット行動算出部21は、ターゲット行動aを算出するものであり、状態sを入力とし、ターゲット行動aを出力とするターゲット行動算出用のニューラルネットワーク(図示せず)を備えている。このターゲット行動算出用のニューラルネットワークでは、状態の次回値st+1を用いてターゲット行動at+1Tが算出され、これがターゲット値算出部14Bに出力される。 On the other hand, the target behavior calculation unit 21 described above is for calculating the target behavior a T, inputs the state s, comprising a neural network for the target behavior calculation to output the target behavior a T (not shown) ing. In this neural network for target behavior calculation, the target behavior at + 1T is calculated using the next value s t + 1 of the state, and this is output to the target value calculation unit 14B.

さらに、ターゲット行動算出部21では、ターゲット行動算出用のニューラルネットワークのパラメータφ ̄が、行動算出部20から入力されるパラメータφを用いて、下式(7)に示す加重平均演算により前述した制御周期ΔTで更新される。   Furthermore, in the target behavior calculation unit 21, using the parameter φ input from the behavior calculation unit 20, the parameter φ of the neural network for target behavior calculation uses the control described above by the weighted average calculation shown in the following equation (7) It is updated by the period ΔT.

上式(7)のβは、重み係数であり、値0に近い正の所定値(例えば値0.001)に設定される。   In the above equation (7), β is a weighting coefficient, and is set to a positive predetermined value close to the value 0 (for example, the value 0.001).

また、ターゲット値算出部14Bでは、ターゲット値算出用のニューラルネットワークを用いて、ターゲット値T(st+1,at+1T)が算出される。このターゲット値算出用のニューラルネットワークは、状態の次回値st+1及びターゲット行動at+1Tが入力されたときに、ターゲット値T(st+1,at+1T)を出力するように構成されている。 Further, the target value calculation unit 14B calculates a target value T ( st + 1 , at + 1T ) using a neural network for target value calculation. The neural network for calculating the target value is configured to output the target value T ( st + 1 , at + 1T ) when the next value s t + 1 of the state and the target behavior at + 1 T are input.

このターゲット値算出用のニューラルネットワークのパラメータθ ̄は、行動価値算出部11Bから入力されるパラメータθを用いて、下式(8)に示す加重平均演算により前述した制御周期ΔTで更新される。   The parameter θ of the neural network for calculating the target value is updated at the above-described control period ΔT by the weighted average calculation shown in the following equation (8) using the parameter θ input from the action value calculation unit 11B.

なお、本実施形態では、ターゲット値算出部14Bが第2価値関数算出手段及び第2価値関数更新手段に相当し、ターゲット値Tが第2価値関数に相当する。   In the present embodiment, the target value calculation unit 14B corresponds to the second value function calculation means and the second value function update means, and the target value T corresponds to the second value function.

さらに、誤差関数算出部16Bでは、以上のように算出された各種の値に基づき、下式(9),(10)により、誤差関数Lが算出される。   Furthermore, in the error function calculation unit 16B, the error function L is calculated by the following equations (9) and (10) based on the various values calculated as described above.

なお、上式(9)の最大値maxat+1Q(st+1,at+1)としては、行動価値関数Q(st+1,at+1)の値が用いられる。このように最大値maxat+1Q(st+1,at+1)を設定する理由は、方策関数を用いて算出されたat+1は、最適な出力であるという仮定に基づくものである。 Note that, as the maximum value max at + 1 Q (s t + 1 , a t + 1 ) in the above equation (9), the value of the action value function Q (s t + 1 , at + 1 ) is used. The reason for setting the maximum value max at + 1 Q ( st + 1 , at + 1 ) in this way is based on the assumption that at + 1 calculated using the policy function is an optimal output.

以上のように、本実施形態の行動決定システム10Bによれば、行動算出部20で、ニューラルネットワークで近似した方策関数を用いて、行動aが算出され、行動価値算出部11Bで、ニューラルネットワークで近似した状態価値関数を用いて、行動価値関数Qが算出される。このように、方策関数及び状態価値関数を別個に用いることができるので、方策関数を学習する際の任意性を向上させることができ、連続空間や高次元空間に対応できるとともに、エージェントによる探索行動のコントロールを容易に実行することができる。さらに、誤差関数Lが最小になるように、状態価値関数が更新されるとともに、状態価値関数が最大となるように、方策関数が更新されるので、方策関数を、その挙動が不安定になるのを抑制しながら安定した状態で更新することができる。   As described above, according to the action determination system 10B of the present embodiment, the action calculation unit 20 calculates the action a using the measure function approximated by the neural network, and the action value calculation unit 11B uses the neural network. The action value function Q is calculated using the approximated state value function. As described above, since the policy function and the state value function can be used separately, it is possible to improve the option when learning the policy function, and to be able to cope with continuous space and high dimensional space. Control can be easily implemented. Furthermore, the state value function is updated such that the error function L is minimized, and the policy function is updated such that the state value function is maximized, so that the behavior of the policy function becomes unstable. Can be updated in a stable state while suppressing

なお、第3実施形態は、状態価値関数が最大となるように、方策関数を更新した例であるが、これに代えて、状態価値関数及びアドバンテージ関数の双方が最大になるように、方策関数を更新するように構成してもよい。   Although the third embodiment is an example in which the policy function is updated so that the state value function is maximized, instead, the policy function is updated such that both the state value function and the advantage function are maximized. May be configured to update the

次に、図9を参照しながら、第4実施形態に係る自動運転制御装置1C(エージェント)について説明する。この自動運転制御装置1Cの場合、第1実施形態の自動運転制御装置1と比較して、図9に示す行動決定システム10Cの構成のみが異なっているので、以下、異なる点を中心に説明する。   Next, an automatic driving control apparatus 1C (agent) according to a fourth embodiment will be described with reference to FIG. In the case of the automatic driving control device 1C, only the configuration of the behavior determining system 10C shown in FIG. 9 is different from that of the automatic driving control device 1 of the first embodiment. .

この行動決定システム10Cは、行動価値算出部11C、方策算出部12C、最大値選択部13C、ターゲット値算出部14C、報酬算出部15C及び誤差関数算出部16Cを備えている。   The action determination system 10C includes an action value calculation unit 11C, a policy calculation unit 12C, a maximum value selection unit 13C, a target value calculation unit 14C, a reward calculation unit 15C, and an error function calculation unit 16C.

この行動価値算出部11Cは、Q算出用のニューラルネットワーク及び記憶部を備えている。この記憶部は、経験メモリタイプのものであり、値iをi=1〜m(mは複数)と規定したときに、合計m+1回の制御タイミングで環境9からそれぞれ入力されたm+1個の状態の時系列離散データs〜st+iを記憶する。さらに、行動価値算出部11Cは、記憶部内の最新の値st+mをターゲット値算出部14Cに出力する。 The action value calculation unit 11C includes a neural network for Q calculation and a storage unit. This storage unit is of an empirical memory type, and when the value i is defined as i = 1 to m (m is plural), m + 1 states respectively input from the environment 9 at a total of m + 1 control timings The time-series discrete data s t to s t + i are stored. Further, the action value calculation unit 11C outputs the latest value st + m in the storage unit to the target value calculation unit 14C.

また、Q算出用のニューラルネットワークでは、記憶部内のm個の状態の時系列離散データst+i−1を用いて、m×n個の行動価値関数Q(st+i−1,a)が算出され、これらの値が方策算出部12Cに出力される。 Also, in the neural network for calculating Q, using the time-series discrete data s t + i−1 of m states in the storage unit, the m × n action value functions Q (s t + i−1 , a j ) are calculated These values are output to the policy calculation unit 12C.

さらに、このQ算出用のニューラルネットワークでは、記憶部内の最新の値st+mを用いて、n個の行動価値関数Q(st+m,a)が算出され、これらの値が最大値選択部13Cに出力される。 Furthermore, in this neural network for calculating Q, n action value functions Q ( st + m , aj ) are calculated using the latest value s t + m in the storage unit, and these values are used as the maximum value selection unit 13C. Output to

これに加えて、行動価値算出部11Cでは、バックプロパゲーション法により、誤差関数算出部16Cから入力される誤差関数Lが最小になるように、Q算出用のニューラルネットワークのパラメータθが前述した制御周期ΔTで更新される。   In addition to this, in the action value calculation unit 11C, control is performed on the parameter θ of the neural network for Q calculation described above so that the error function L input from the error function calculation unit 16C is minimized by the back propagation method. It is updated by the period ΔT.

さらに、このパラメータθの更新回数が前述した所定値に達する毎に、その時点のパラメータθが、更新用のパラメータθ ̄としてターゲット値算出部14Cに出力される。なお、本実施形態では、行動価値算出部11Cが第1価値関数算出手段及び第1価値関数更新手段に相当する。   Furthermore, every time the number of updates of the parameter θ reaches the above-described predetermined value, the parameter θ at that time is output to the target value calculation unit 14C as the parameter for update θ. In the present embodiment, the action value calculation unit 11C corresponds to a first value function calculation unit and a first value function update unit.

また、方策算出部12C(行動決定手段)では、行動価値算出部11Cから入力されるm×n個の行動価値関数Q(st+i−1,a)に基づいて、前述したε-greedy法により、行動aが選択されるとともに、選択された行動aが環境9に出力される。さらに、選択された行動aに対応する行動価値関数Q(s,a)が、誤差関数算出部16Cに出力される。 Further, in the policy calculation unit 12C (action determination means), the ε-greedy method described above is based on the m × n action value functions Q ( st + i−1 , a j ) input from the action value calculation unit 11C. a result, the action a t is selected, the selected action a t is output to the environment 9. Moreover, action value function Q (s t, a t) corresponding to the selected action a t is output to the error function calculator 16C.

さらに、最大値選択部13Cでは、行動価値算出部11Cから入力されたn個の行動価値関数Q(st+m,a)を比較し、これらの中から最大値maxat+1Q(st+m,at+m)を選択した後、選択された最大値maxat+1Q(st+m,at+m)が誤差関数算出部16Cに出力される。これに加えて、選択された最大値maxat+mQ(st+m,at+m)に対応する行動at+mがターゲット値算出部14Cに出力される。 Furthermore, the maximum value selection unit 13C compares the n action value functions Q ( st + m , aj ) input from the action value calculation unit 11C, and among these, the maximum value max at + 1 Q ( st + m , a After selecting t + m ), the selected maximum value max at + 1 Q ( st + m , at + m ) is output to the error function calculator 16C. In addition, the maximum value max at + m Q (s t + m, a t + m) which has been selected action a t + m corresponding to is output to the target value calculation portion 14C.

一方、ターゲット値算出部14Cは、ターゲット値算出用のニューラルネットワークを備えており、このターゲット値算出用のニューラルネットワークは、状態の最新値st+m及び最大値maxat+mQ(st+m,at+m)に対応する行動at+mを用いてターゲット値T(st+m,at+m)を算出し、これを誤差関数算出部16Cに出力する。 On the other hand, the target value calculation unit 14C includes a neural network for calculating a target value, and the neural network for calculating a target value has the latest value s t + m and the maximum value max at + m Q (s t + m , at + m ) of the state. The target value T ( st + m , at + m ) is calculated using the action at + m corresponding to 、, and this is output to the error function calculator 16C.

また、このターゲット値算出用のニューラルネットワークのパラメータ(重み)θ ̄は、前述したように、行動価値算出部11Cから入力される更新用のパラメータθ ̄に設定される。なお、本実施形態では、ターゲット値算出部14Cが第2価値関数算出手段及び第2価値関数更新手段に相当する。   Further, as described above, the parameter (weight) ̄ of the neural network for calculating the target value is set to the parameter 更新 for update input from the behavior value calculating unit 11C. In the present embodiment, the target value calculation unit 14C corresponds to the second value function calculation means and the second value function update means.

さらに、報酬算出部15Cは、行動価値算出部11Cの記憶部と同様の、経験メモリタイプの記憶部を備えている。この報酬算出部15Cでは、記憶部に記憶されているm個の状態の時系列離散データst+iに基づき、所定の報酬算出アルゴリズムを用いて、報酬r(st+i)が算出され、これが誤差関数算出部16Cに出力される。 Furthermore, the reward calculation unit 15C includes an experience memory type storage unit similar to the storage unit of the action value calculation unit 11C. In this reward calculation unit 15C, based on the time-series discrete data s t + i of m states stored in the storage unit, the reward r (s t + i ) is calculated using a predetermined reward calculation algorithm, and this is an error function It is output to the calculation unit 16C.

さらに、誤差関数算出部16Cでは、以上のように算出された各種の値に基づき、下式(11),(12)により、誤差関数Lが算出される。   Furthermore, in the error function calculation unit 16C, the error function L is calculated by the following equations (11) and (12) based on the various values calculated as described above.

以上のように、本実施形態の行動決定システム10Cによれば、誤差関数LのTD誤差が、m+1回の行動a〜at+mを実行した結果のm個の報酬の時系列離散データr(st+i)を含むように算出され、この誤差関数Lが最小になるように、行動価値関数Q算出用のニューラルネットワークが更新されるので、1つの状態の時系列離散データsを用いた場合と比べて、過去に行った行動aの(行動価値関数Qによる)評価をより迅速に行動価値関数Qの更新に反映させることができ、学習速度をさらに向上させることができる。 As described above, according to the behavior determining system 10C of the present embodiment, TD error of the error function L is, m + 1 times action a t ~a t + time series of m reward result m has been executed discrete data r ( Since it is calculated to include s t + i ) and the neural network for calculating the action value function Q is updated so that the error function L is minimized, the time series discrete data s t of one state is used In comparison with the above, the evaluation (by the action value function Q) of the action a performed in the past can be more quickly reflected in the update of the action value function Q, and the learning speed can be further improved.

1 自動運転制御装置(エージェント)
2 ECU(第1価値関数算出手段、行動決定手段、第1価値関数更新手段、第2価 値関数算出手段、第2価値関数更新手段、方策関数更新手段)
3 自動運転車両
9 環境
10 行動決定システム
11 行動価値算出部(第1価値関数算出手段、第1価値関数更新手段)
12 方策算出部(行動決定手段)
14 ターゲット値算出部(第2価値関数算出手段、第2価値関数更新手段)
1A 自動運転制御装置(エージェント)
10A 行動決定システム
1B 自動運転制御装置(エージェント)
10B 行動決定システム
11B 行動価値算出部(第1価値関数算出手段、第1価値関数更新手段)
14B ターゲット値算出部(第2価値関数算出手段、第2価値関数更新手段)
20 行動算出部(行動決定手段、方策関数更新手段)
1C 自動運転制御装置(エージェント)
10C 行動決定システム
11C 行動価値算出部(第1価値関数算出手段、第1価値関数更新手段)
12C 方策算出部(行動決定手段)
14C ターゲット値算出部(第2価値関数算出手段、第2価値関数更新手段)
Q 行動価値関数(第1価値関数)
a 行動
s 状態(情報)
data_s 状況データ(情報、状態)
L 誤差関数
T ターゲット値(第2価値関数)
ε1 所定値
Tref ターゲット値(第2価値関数、固定された関数)
ΔT 制御周期(所定周期)
1 Automatic operation control device (agent)
2 ECU (first value function calculating means, action determining means, first value function updating means, second value function calculating means, second value function updating means, policy function updating means)
3 autonomous driving vehicle 9 environment 10 behavior determination system 11 behavior value calculation unit (first value function calculation means, first value function update means)
12 policy calculation part (action decision means)
14 Target value calculation unit (second value function calculation means, second value function update means)
1A Automatic operation control device (agent)
10A Behavior Decision System 1B Automatic Operation Controller (Agent)
10B action determination system 11B action value calculation unit (first value function calculation means, first value function update means)
14B Target value calculation unit (second value function calculation means, second value function update means)
20 Behavior calculation unit (action decision means, measure function update means)
1C Automatic operation control device (agent)
10C Behavior determination system 11C Behavior value calculation unit (first value function calculation means, first value function update means)
12C policy calculation part (action decision means)
14C Target value calculation unit (2nd value function calculation means, 2nd value function update means)
Q action value function (first value function)
a action s state (information)
data_s status data (information, status)
L error function T target value (second value function)
ε1 predetermined value
Tref target value (second value function, fixed function)
ΔT control cycle (predetermined cycle)

Claims (8)

強化学習法を用いてエージェントによる行動を決定する行動決定システムにおいて、
環境から前記エージェントに入力される情報を用いて、第1価値関数を算出する第1価値関数算出手段と、
当該第1価値関数を用いて、前記エージェントによる最適な行動を決定する行動決定手段と、
前記第1価値関数のTD誤差と、前記第1価値関数と当該第1価値関数と異なる第2価値関数との差分と、を含むように定義された誤差関数が最小になるように、前記第1価値関数を更新する第1価値関数更新手段と、
を備えることを特徴とする行動決定システム。
In an action decision system that decides an action by an agent using a reinforcement learning method,
First value function calculation means for calculating a first value function using information input from an environment to the agent;
Action determining means for determining an optimal action by the agent using the first value function;
In order to minimize the error function defined to include the TD error of the first value function and the difference between the first value function and the second value function different from the first value function, First value function updating means for updating one value function;
An action determination system comprising:
前記第1価値関数更新手段は、前記誤差関数として、前記差分が所定値を超えているときには、前記TD誤差と前記差分を含むように定義された誤差関数を用い、前記差分が所定値以下のときには、前記TD誤差のみを含むように定義された誤差関数を用いることを特徴とする請求項1に記載の行動決定システム。   The first value function updating means uses, as the error function, an error function defined to include the TD error and the difference when the difference exceeds a predetermined value, and the difference is less than or equal to the predetermined value The behavior determination system according to claim 1, wherein sometimes an error function defined to include only the TD error is used. 前記情報を用いて、前記第2価値関数を算出する第2価値関数算出手段と、
前記第2価値関数を前記第1価値関数よりも遅い更新速度で更新する第2価値関数更新手段と、
をさらに備えることを特徴とする請求項1又は2に記載の行動決定システム。
Second value function calculating means for calculating the second value function using the information;
Second value function updating means for updating the second value function at a slower update rate than the first value function;
The action determination system according to claim 1 or 2, further comprising:
前記第2価値関数として固定された関数を用いることを特徴とする請求項1又は2に記載の行動決定システム。   The action determination system according to claim 1 or 2, wherein a fixed function is used as the second value function. 前記情報は、前記環境の状態であり、
前記第1価値関数は、前記環境の状態及び前記行動を評価するための行動価値関数であり、
前記行動決定手段は、所定手法を用いて、前記行動価値関数に基づき、前記最適な行動を決定することを特徴とする請求項1ないし4のいずれかに記載の行動決定システム。
The information is the state of the environment,
The first value function is an action value function for evaluating the state of the environment and the action;
The behavior determination system according to any one of claims 1 to 4, wherein the behavior determination means determines the optimal behavior based on the behavior value function using a predetermined method.
前記情報は、前記環境の状態であり、
前記第1価値関数は、前記環境の状態を評価するための状態価値関数と前記行動を評価するための方策関数とを含み、
前記行動決定手段は、前記方策関数を用いて、前記最適な行動を決定し、
前記第1価値関数更新手段は、前記誤差関数が最小になるように、前記状態価値関数を更新し、
前記状態価値関数が最大となるように、前記方策関数を更新する方策関数更新手段をさらに備えることを特徴とする請求項1ないし4のいずれかに記載の行動決定システム。
The information is the state of the environment,
The first value function includes a state value function for evaluating the state of the environment and a policy function for evaluating the behavior,
The action determining means determines the optimal action using the policy function,
The first value function updating means updates the state value function so as to minimize the error function,
The behavior determination system according to any one of claims 1 to 4, further comprising policy function update means for updating the policy function so that the state value function is maximized.
前記情報は、前記エージェントが所定周期で前記最適な行動を複数回、実行したときに、前記環境から当該所定周期で入力される前記情報の複数の時系列離散データであり、
前記第1価値関数のTD誤差は、前記情報の複数の時系列離散データを用いて算出した報酬の複数の時系列離散データを含むように構成されていることを特徴とする請求項1ないし6のいずれかに記載の行動決定システム。
The information is a plurality of time-series discrete data of the information input in the predetermined cycle from the environment when the agent executes the optimal action a plurality of times in a predetermined cycle,
The TD error of the first value function is configured to include a plurality of time series discrete data of a reward calculated using a plurality of time series discrete data of the information. The action decision system according to any of the above.
請求項1ないし7のいずれかに記載の行動決定システムを備え、自動運転車両を制御する自動運転制御装置において、
前記情報は、前記自動運転車両の動作状況及び動作環境を表す状況データであり、
前記行動は、前記自動運転車両を制御するための目標値又は指令値であることを特徴とする自動運転制御装置。
An automatic driving control apparatus comprising the behavior determination system according to any one of claims 1 to 7, for controlling an autonomous driving vehicle,
The information is status data representing an operating condition and an operating environment of the autonomous driving vehicle,
The automatic driving control apparatus, wherein the action is a target value or a command value for controlling the autonomous driving vehicle.
JP2017215645A 2017-11-08 2017-11-08 Action decision system and automatic driving control system Active JP6845529B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017215645A JP6845529B2 (en) 2017-11-08 2017-11-08 Action decision system and automatic driving control system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017215645A JP6845529B2 (en) 2017-11-08 2017-11-08 Action decision system and automatic driving control system

Publications (2)

Publication Number Publication Date
JP2019087096A true JP2019087096A (en) 2019-06-06
JP6845529B2 JP6845529B2 (en) 2021-03-17

Family

ID=66763111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017215645A Active JP6845529B2 (en) 2017-11-08 2017-11-08 Action decision system and automatic driving control system

Country Status (1)

Country Link
JP (1) JP6845529B2 (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111746633A (en) * 2020-07-02 2020-10-09 南京航空航天大学 Vehicle distributed steering driving system control method based on reinforcement learning
JP2020182575A (en) * 2019-04-30 2020-11-12 株式会社大一商会 Game machine
JP2020182576A (en) * 2019-04-30 2020-11-12 株式会社大一商会 Game machine
WO2021014878A1 (en) 2019-07-25 2021-01-28 オムロン株式会社 Inference device, inference method, and inference program
WO2021090413A1 (en) * 2019-11-06 2021-05-14 日本電信電話株式会社 Control device, control system, control method, and program
CN112926629A (en) * 2021-01-29 2021-06-08 北京字节跳动网络技术有限公司 Hyper-parameter determination method, device, deep reinforcement learning framework, medium and equipment
CN113911135A (en) * 2020-07-07 2022-01-11 本田技研工业株式会社 Control device, control method, and vehicle
WO2022091261A1 (en) * 2020-10-28 2022-05-05 日本電気株式会社 Evaluation system, evaluation method, and evaluation program
CN111731326B (en) * 2020-07-02 2022-06-21 知行汽车科技(苏州)有限公司 Obstacle avoidance strategy determination method and device and storage medium
KR20220167730A (en) * 2021-06-14 2022-12-21 숭실대학교산학협력단 Method of lane change for autonomous vehicles based deep reinforcement learning, recording medium and device for performing the method
US11934951B2 (en) 2019-12-24 2024-03-19 Honda Motor Co., Ltd. Control apparatus, control method for control apparatus, non-transitory computer readable storage medium, information processing server, information processing method, and control system for controlling system using reinforcement learning

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134907A (en) * 2008-11-04 2010-06-17 Honda Motor Co Ltd Reinforcement learning system
JP2013106202A (en) * 2011-11-14 2013-05-30 Fujitsu Ltd Parameter setting device, computer program, and parameter setting method
WO2017189859A1 (en) * 2016-04-27 2017-11-02 Neurala, Inc. Methods and apparatus for pruning experience memories for deep neural network-based q-learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010134907A (en) * 2008-11-04 2010-06-17 Honda Motor Co Ltd Reinforcement learning system
JP2013106202A (en) * 2011-11-14 2013-05-30 Fujitsu Ltd Parameter setting device, computer program, and parameter setting method
WO2017189859A1 (en) * 2016-04-27 2017-11-02 Neurala, Inc. Methods and apparatus for pruning experience memories for deep neural network-based q-learning

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020182575A (en) * 2019-04-30 2020-11-12 株式会社大一商会 Game machine
JP2020182576A (en) * 2019-04-30 2020-11-12 株式会社大一商会 Game machine
US11941868B2 (en) 2019-07-25 2024-03-26 Omron Corporation Inference apparatus, inference method, and computer-readable storage medium storing an inference program
WO2021014878A1 (en) 2019-07-25 2021-01-28 オムロン株式会社 Inference device, inference method, and inference program
WO2021090413A1 (en) * 2019-11-06 2021-05-14 日本電信電話株式会社 Control device, control system, control method, and program
US11934951B2 (en) 2019-12-24 2024-03-19 Honda Motor Co., Ltd. Control apparatus, control method for control apparatus, non-transitory computer readable storage medium, information processing server, information processing method, and control system for controlling system using reinforcement learning
CN111731326B (en) * 2020-07-02 2022-06-21 知行汽车科技(苏州)有限公司 Obstacle avoidance strategy determination method and device and storage medium
CN111746633A (en) * 2020-07-02 2020-10-09 南京航空航天大学 Vehicle distributed steering driving system control method based on reinforcement learning
CN113911135A (en) * 2020-07-07 2022-01-11 本田技研工业株式会社 Control device, control method, and vehicle
JP7469167B2 (en) 2020-07-07 2024-04-16 本田技研工業株式会社 Control device, control method, and vehicle
CN113911135B (en) * 2020-07-07 2024-06-07 本田技研工业株式会社 Control device, control method, and vehicle
WO2022091261A1 (en) * 2020-10-28 2022-05-05 日本電気株式会社 Evaluation system, evaluation method, and evaluation program
CN112926629A (en) * 2021-01-29 2021-06-08 北京字节跳动网络技术有限公司 Hyper-parameter determination method, device, deep reinforcement learning framework, medium and equipment
CN112926629B (en) * 2021-01-29 2024-04-02 北京字节跳动网络技术有限公司 Super-parameter determination method, device, deep reinforcement learning framework, medium and equipment
KR20220167730A (en) * 2021-06-14 2022-12-21 숭실대학교산학협력단 Method of lane change for autonomous vehicles based deep reinforcement learning, recording medium and device for performing the method
KR102631402B1 (en) * 2021-06-14 2024-01-31 숭실대학교 산학협력단 Method of lane change for autonomous vehicles based deep reinforcement learning, recording medium and device for performing the method

Also Published As

Publication number Publication date
JP6845529B2 (en) 2021-03-17

Similar Documents

Publication Publication Date Title
JP6845529B2 (en) Action decision system and automatic driving control system
JP7143250B2 (en) A method and system for assisting an operator of an ego-vehicle in controlling the ego-vehicle by determining the future behavior and associated trajectory of the ego-vehicle
JP6494872B2 (en) Method for controlling vehicle motion and vehicle control system
CN112119404A (en) Sample efficient reinforcement learning
JP2016100009A (en) Method for controlling operation of machine and control system for iteratively controlling operation of machine
JP7215077B2 (en) Prediction program, prediction method and prediction device
EP3678060A1 (en) Control device, unmanned system, control method, and program
JP2012208789A5 (en)
Okamoto et al. Data-driven human driver lateral control models for developing haptic-shared control advanced driver assist systems
Ure et al. Enhancing situational awareness and performance of adaptive cruise control through model predictive control and deep reinforcement learning
JP6840363B2 (en) Network learning device, action decision device, network learning method, and program
EP3961598A1 (en) Method and system for enabling cooperative coordination between autonomously acting entities
JP7125286B2 (en) Behavior prediction device and automatic driving device
US20210192347A1 (en) Method for Determining Continuous Information on an Expected Trajectory of an Object
US11619929B2 (en) Automatic operation control method and system
US11579574B2 (en) Control customization system, control customization method, and control customization program
JP7019885B2 (en) Vehicle control value determination device, vehicle control value determination method, and program
US20210341885A1 (en) Device and method for training a control strategy for a control device over several iterations
McKinnon et al. Meta learning with paired forward and inverse models for efficient receding horizon control
Liu et al. Proactive longitudinal control to preclude disruptive lane changes of human-driven vehicles in mixed-flow traffic
EP3907663B1 (en) Predicting a state of a computer-controlled entity
WO2021186500A1 (en) Learning device, learning method, and recording medium
JP2010092247A (en) Controller, control method and control program
KR102376615B1 (en) Method for controlling mobile robot and apparatus thereof
Zakaria et al. A study of multiple reward function performances for vehicle collision avoidance systems applying the DQN algorithm in reinforcement learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201013

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201014

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210212

R150 Certificate of patent or registration of utility model

Ref document number: 6845529

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250