JP7110891B2 - Autopilot robot control device and control method - Google Patents
Autopilot robot control device and control method Download PDFInfo
- Publication number
- JP7110891B2 JP7110891B2 JP2018188766A JP2018188766A JP7110891B2 JP 7110891 B2 JP7110891 B2 JP 7110891B2 JP 2018188766 A JP2018188766 A JP 2018188766A JP 2018188766 A JP2018188766 A JP 2018188766A JP 7110891 B2 JP7110891 B2 JP 7110891B2
- Authority
- JP
- Japan
- Prior art keywords
- vehicle
- value
- learning model
- learning
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Feedback Control In General (AREA)
Description
本発明は、車両を走行させる自動操縦ロボットの制御装置及び制御方法に関する。 The present invention relates to a control device and control method for an autopilot robot that drives a vehicle.
一般に、普通自動車などの車両を製造、販売する際には、国や地域により規定された、特定の走行パターン(モード)により車両を走行させた際の燃費や排出ガスを測定し、これを表示する必要がある。
モードは、例えば、走行開始から経過した時間と、その時に到達すべき車速との関係として、グラフにより表わすことが可能である。この到達すべき車速は、車両へ与えられる達成すべき速度に関する指令という観点で、指令車速と呼ばれることがある。
上記のような、燃費や排出ガスに関する試験は、シャシーダイナモメータ上に車両を載置し、車両に搭載された自動操縦ロボット、所謂ドライブロボット(登録商標)により、モードに従って車両を運転させることにより行われる。
Generally, when manufacturing and selling a vehicle such as a standard-sized car, the fuel consumption and exhaust gas are measured and displayed when the vehicle is driven in a specific driving pattern (mode) stipulated by the country or region. There is a need to.
The mode can be represented by a graph, for example, as the relationship between the elapsed time from the start of travel and the vehicle speed to be reached at that time. This vehicle speed to be reached is sometimes referred to as command vehicle speed from the viewpoint of a command given to the vehicle regarding the speed to be achieved.
Tests related to fuel consumption and exhaust gas, such as those described above, are performed by placing the vehicle on the chassis dynamometer and driving the vehicle according to the mode by an autopilot robot mounted on the vehicle, the so-called Drive Robot (registered trademark). done.
指令車速には、許容誤差範囲が規定されている。車速が許容誤差範囲を逸脱すると、その試験は無効となるため、自動運転装置には、指令車速への高い追従性が求められる。
これに対し、特許文献1には、車速追従性を高め、事前に行う設定を容易にすることを目的とした、車両速度制御装置が開示されている。
特許文献1の車両速度制御装置は、例えばPID制御則等の、既知のフィードバック制御則に基づいている。
A permissible error range is defined for the command vehicle speed. If the vehicle speed deviates from the allowable error range, the test becomes invalid, so the automatic driving system is required to have high followability to the commanded vehicle speed.
On the other hand,
The vehicle speed control device of
上記のように、車両の試験は、燃費や排出ガスの測定を目的の一つとして行われる。
特許文献1のような、フィードバック制御に基づく指令車速への追従制御においては、指令車速に追従させつつ、燃費や排ガス性能をも同時に考慮した車両の操作、例えばアクセルペダルやブレーキペダルの操作量を計算することは、容易ではない。すなわち、燃費や排ガス性能を適切に考慮できないために、指令車速に追従させようとするあまり、例えばアクセルペダルやブレーキペダルを大きく操作したり、小刻みな操作を繰り返したりすることがある。この場合には、車両が備える本来の燃費や排ガス性能よりも、悪い性能が測定される可能性がある。
As described above, one of the purposes of vehicle testing is to measure fuel consumption and emissions.
In the follow-up control to the commanded vehicle speed based on the feedback control as in
本発明が解決しようとする課題は、指令車速に高い精度で追従させつつ、燃費や排ガス性能を考慮して車両を操作可能な、自動操縦ロボット(ドライブロボット)の制御装置及び制御方法を提供することである。 The problem to be solved by the present invention is to provide a control device and a control method for an autopilot robot (drive robot) that can operate a vehicle in consideration of fuel consumption and exhaust gas performance while following a commanded vehicle speed with high accuracy. That is.
本発明は、上記課題を解決するため、以下の手段を採用する。すなわち、本発明は、車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御装置であって、前記車両の走行状態を取得する走行状態取得部と、第1の時刻における前記走行状態を基に、第1学習モデルにより、前記第1の時刻より後の前記車両の操作の内容を推論する操作内容推論部と、前記操作の内容に基づき前記自動操縦ロボットを制御する車両操作制御部と、を備え、前記走行状態は、前記車両において検出された車速と、前記走行状態が取得された時刻における前記指令車速を含み、前記第1学習モデルは、前記操作の内容に基づいた前記自動操縦ロボットの操作の後の、前記第1の時刻より後の第2の時刻における前記走行状態に基づいて、燃費と排ガス性能のいずれか一方または双方がより高い前記操作の内容であるほど大きな値となるように計算された報酬を基に、強化学習されている、自動操縦ロボットの制御装置を提供する。 In order to solve the above problems, the present invention employs the following means. That is, the present invention is a control device for an autopilot robot that controls an autopilot robot that is mounted on a vehicle and causes the vehicle to travel in accordance with a prescribed command vehicle speed, comprising: A driving state acquisition unit that acquires a driving state, and an operation content inference unit that infers details of operation of the vehicle after the first time using a first learning model based on the driving state at the first time. and a vehicle operation control unit that controls the autopilot robot based on the content of the operation, wherein the running state is the vehicle speed detected in the vehicle and the command vehicle speed at the time when the running state is acquired. wherein the first learning model calculates fuel consumption and exhaust gas based on the running state at a second time after the first time after the operation of the autopilot robot based on the content of the operation Provided is a control device for an autopilot robot, in which reinforcement learning is performed based on a reward calculated so that the higher one or both of the performances is, the larger the value of the operation is.
また、本発明は、車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御方法であって、前記車両の走行状態を取得し、前記走行状態は、前記車両において検出された車速と、前記走行状態が取得された時刻における前記指令車速を含み、第1の時刻から、当該第1の時刻より後の前記車両の操作の内容を推論する第1学習モデルであって、前記操作の内容に基づいた前記自動操縦ロボットの操作の後の、前記第1の時刻より後の第2の時刻における前記走行状態に基づいて、燃費と排ガス性能のいずれか一方または双方がより高い前記操作の内容であるほど大きな値となるように報酬を計算し、前記報酬を基に強化学習された前記第1学習モデルにより、前記第1の時刻における前記走行状態を基に、前記車両の操作の内容を推論し、前記操作の内容に基づき前記自動操縦ロボットを制御する、自動操縦ロボットの制御方法を提供する。 The present invention also provides a control method for an autopilot robot that controls an autopilot robot that is mounted on a vehicle and causes the vehicle to travel in accordance with a prescribed command vehicle speed, the method comprising: A running state is acquired, and the running state includes the vehicle speed detected in the vehicle and the command vehicle speed at the time when the running state is acquired, and the running state is from a first time to the time after the first time. A first learning model for inferring details of operation of a vehicle, wherein the driving state at a second time after the first time after the operation of the autopilot robot based on the details of the operation. Based on this, a reward is calculated so that the higher the content of the operation is, the higher the fuel efficiency and/or the exhaust gas performance, the larger the value, and the first learning model that has undergone reinforcement learning based on the reward, A control method for an autopilot robot is provided, which infers details of an operation of the vehicle based on the running state at the first time, and controls the autopilot robot based on the details of the operation.
本発明によれば、指令車速に高い精度で追従させつつ、燃費や排ガス性能を考慮して車両を操作可能な、自動操縦ロボット(ドライブロボット)の制御装置及び制御方法を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the control apparatus and control method of an autopilot robot (drive robot) which can operate a vehicle in consideration of a fuel consumption and exhaust gas performance can be provided, following command vehicle speed with high precision.
以下、本発明の実施形態について図面を参照して詳細に説明する。
本実施形態における自動操縦ロボットの制御装置は、車両に搭載されて車両を走行させる自動操縦ロボットを、車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御装置であって、車両の走行状態を取得する走行状態取得部と、第1の時刻における走行状態を基に、第1学習モデルにより、第1の時刻より後の車両の操作の内容を推論する操作内容推論部と、操作の内容に基づき自動操縦ロボットを制御する車両操作制御部と、を備え、走行状態は、車両において検出された車速と、走行状態が取得された時刻における指令車速を含み、第1学習モデルは、操作の内容に基づいた自動操縦ロボットの操作の後の、第1の時刻より後の第2の時刻における走行状態に基づいて、燃費と排ガス性能のいずれか一方または双方がより高い操作の内容であるほど大きな値となるように計算された報酬を基に、強化学習されている。
本実施形態においては、自動操縦ロボットとしては、ドライブロボット(登録商標)を用いているため、以下、自動操縦ロボットをドライブロボットと記載する。
BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
The control device for an autopilot robot according to the present embodiment is a control device for an autopilot robot that controls an autopilot robot that is mounted on a vehicle and causes the vehicle to travel in accordance with a prescribed command vehicle speed. a driving state acquisition unit that acquires the driving state of the vehicle; and an operation content inference unit that infers the content of the operation of the vehicle after the first time using a first learning model based on the driving state at the first time. and a vehicle operation control unit that controls the autopilot robot based on the content of the operation. After the operation of the autopilot robot based on the content of the operation, the model is based on the driving state at the second time after the first time. Reinforcement learning is performed based on a reward that is calculated so that the value increases as the content of the content increases.
In this embodiment, the drive robot (registered trademark) is used as the autopilot robot, and hence the autopilot robot is hereinafter referred to as the drive robot.
図1は、実施形態におけるドライブロボットを用いた試験環境の説明図である。試験装置1は、車両2、シャシーダイナモメータ3、及びドライブロボット4を備えている。
車両2は、床面上に設けられている。シャシーダイナモメータ3は、床面の下方に設けられている。車両2は、車両2の駆動輪2aがシャシーダイナモメータ3の上に載置されるように、位置づけられている。車両2が走行し駆動輪2aが回転する際には、シャシーダイナモメータ3が反対の方向に回転する。
ドライブロボット4は、車両2の運転席2bに搭載されて、車両2を走行させる。ドライブロボット4は、第1アクチュエータ4cと第2アクチュエータ4dを備えており、これらはそれぞれ、車両2のアクセルペダル2cとブレーキペダル2dに当接するように設けられている。
FIG. 1 is an explanatory diagram of a test environment using a drive robot in an embodiment. A
The
The
ドライブロボット4は、制御装置10によって制御されている。より詳細には、制御装置10は、ドライブロボット4の第1アクチュエータ4cと第2アクチュエータ4dを制御することにより、車両2のアクセルペダル2cとブレーキペダル2dの開度を変更、調整する。
制御装置10は、ドライブロボット4を、車両2が規定された指令車速に従って走行するように制御する。すなわち、制御装置10は、車両2のアクセルペダル2cとブレーキペダル2dの開度を変更することで、規定された走行パターン(モード)に従うように、車両1を走行制御する。より詳細には、制御装置10は、走行開始から時間が経過するに従い、各時間に到達すべき車速である指令車速に従うように、車両2を走行制御する。
The
The
制御装置10は、互いに通信可能に設けられた、ドライブロボット制御部20と、学習部30を備えている。
ドライブロボット制御部20は、ドライブロボット4の制御を行うための制御信号を生成し、ドライブロボット4に送信することで、ドライブロボット4を制御する。学習部30は、後に説明するような機械学習器に対して強化学習を行い、学習モデルを生成する。この学習モデルの出力を基に、ドライブロボット4の制御を行うための制御信号が生成される。
ドライブロボット制御部20は、例えば、ドライブロボット4の筐体外部に設けられた、コントローラ等の情報処理装置である。学習部30は、例えばパーソナルコンピュータ等の情報処理装置である。
The
The drive
The drive
図2は、制御装置10のブロック図である。ドライブロボット制御部20は、指令車速記憶部21、走行状態取得部22、及び車両操作制御部23を備えている。学習部30は、操作内容推論部31、報酬計算部32、強化学習部33、及び学習用データ記憶部34を備えている。
これら制御装置10の構成要素のうち、走行状態取得部22、車両操作制御部23、操作内容推論部31、報酬計算部32、及び強化学習部33は、例えば上記の各情報処理装置内のCPUにより実行されるソフトウェア、プログラムであってよい。また、指令車速記憶部21及び学習用データ記憶部34は、上記各情報処理装置内外に設けられた半導体メモリや磁気ディスクなどの記憶装置により実現されていてよい。
FIG. 2 is a block diagram of the
Among the components of the
後に説明するように、操作内容推論部31は、ある時刻における走行状態を基に、当該時刻よりも後の車両2の操作の内容を推論する。この、車両2の操作の内容の推論を効果的に行うために、特に操作内容推論部31は、後に説明するように機械学習器を備えており、推論した操作の内容に基づいたドライブロボット4の操作の後の時刻における走行状態に基づいて計算された報酬を基に機械学習器を強化学習して学習モデル(第1学習モデル)40を生成する。操作内容推論部31は、性能測定のために実際に車両2を走行制御させる際には、この学習が完了した第1学習モデル40を使用して、車両2の操作の内容を推論する。
すなわち、制御装置10は大別して、強化学習時における操作の内容の学習と、性能測定のために車両を走行制御させる際における操作の内容の推論の、2通りの動作を行う。説明を簡単にするために、以下ではまず、操作の内容の学習時における、制御装置10の各構成要素の説明をした後に、車両の性能測定に際して操作の内容を推論する場合での各構成要素の挙動について説明する。
図2においては、各構成要素が太線と細線の2種類の矢印で結ばれて、データや処理の流れが示されている。車両の性能測定に際して操作の内容を推論する場合でのデータや処理の流れは、太線により示されている。操作の内容の学習時におけるデータや処理の流れは、太線と細線の双方の矢印により示されている。
As will be described later, the operation
That is, the
In FIG. 2, each component is connected by two types of arrows, a thick line and a thin line, to show the flow of data and processing. The data and processing flow in the case of inferring the details of the operation when measuring the performance of the vehicle are indicated by thick lines. The flow of data and processing during learning of operation details is indicated by both thick and thin arrows.
まず、操作の内容の学習時における、ドライブロボット制御部20の構成要素の挙動を説明する。
指令車速記憶部21には、モードに関する情報に基づいて生成された、指令車速が記憶されている。モードは、例えば、走行開始から経過した時間と、その時に到達すべき車速との関係であり、したがって指令車速記憶部21には、実際には、経過時間と指令車速の関係が表現された、例えばテーブルやグラフ、関数等が格納されている。
First, the behavior of the components of the drive
The command vehicle
走行状態取得部22は、現在時点における、車両2の走行状態を取得する。車両2の走行状態は、車両2に備えられた様々な図示されない計測器や、車両2を操作するドライブロボット4内に記録された操作実績から取得され得る。すなわち、車両2の走行状態は、現在時点における車両2の動作状況を数値化して表現したものであり、この値を取得する手段は、車両2の計測器による計測値に限られず、ドライブロボット4によって取得可能な値をも含む。
走行状態としては、前回の走行状態取得時刻からのアクセルペダル操作の、ドライブロボット4の操作実績中の操作量(以下、アクセルペダル検出量と呼称する)、前回の走行状態取得時刻からのブレーキペダル操作の、ドライブロボット4の操作実績中の操作量(以下、ブレーキペダル検出量と呼称する)、車両2において検出されたエンジン回転数(以下、エンジン回転数検出量と呼称する)、車両2において検出された車速(以下、検出車速と呼称する)を含む。
走行状態は、更に、当該走行状態が取得された時刻において、車両2が実現すべき指令車速を含む。
The running
As the driving state, the amount of operation of the accelerator pedal during the actual operation of the drive robot 4 (hereinafter referred to as the accelerator pedal detection amount) since the time when the previous driving state was obtained, and the brake pedal since the time when the previous driving state was obtained. The amount of operation during the operation record of the drive robot 4 (hereinafter referred to as the brake pedal detection amount), the engine speed detected in the vehicle 2 (hereinafter referred to as the engine speed detection amount), the
The running state further includes a command vehicle speed that the
上記の走行状態の各々は、スカラー値であってもよいが、複数の値により実現されていてもよい。
走行状態の各々は、後述する機械学習器を学習させて学習モデル(第1学習モデル40)を生成する際の入力として主に使用される。このため、走行状態の各々に関し、走行状態が取得された時点のみではなく、その前後の複数の時刻において値を取得し、機械学習器の入力とすることにより、過去の経過や将来の推測を活かしてより効果的に学習することができる可能性がある。
例えば、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速等の、車両2の状態を実際に観測、計測することにより取得される走行状態については、機械学習器の学習アルゴリズムにおいて使用する過去の観測データの参照時間を観測データ参照時間Tobsとすると、観測データ参照時間Tobsの系列として、複数の値を有していてもよい。
また、上記のような観測データとは異なり、指令車速記憶部21に値が格納されており全ての時刻における値が随時参照可能な状態となっている指令車速については、機械学習器の学習アルゴリズムにおいて使用する将来の指令車速の参照時間を指令車速参照時間Trefとすると、指令車速参照時間Trefの系列として、複数の値を有していてもよい。
本実施形態においては、走行状態の各々は、複数の値により実現されている。
Each of the above running states may be a scalar value, or may be realized by a plurality of values.
Each of the running states is mainly used as an input when learning a machine learning device, which will be described later, to generate a learning model (first learning model 40). For this reason, for each driving state, values are obtained not only at the time when the driving state was obtained, but also at multiple times before and after that, and by inputting them to the machine learning device, past progress and future predictions can be made. There is a possibility that it can be used to learn more effectively.
For example, the driving state obtained by actually observing and measuring the state of the
Further, unlike the observation data described above, the command vehicle speed, whose value is stored in the command vehicle
In this embodiment, each running state is realized by a plurality of values.
走行状態取得部22は、車両2に備えられた様々な図示されない計測器やドライブロボット4内に記録された操作実績等から、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速を取得する。
また、走行状態取得部22は、指令車速記憶部21から、指令車速を取得する。
走行状態取得部22は、これらの取得した走行状態を、学習部30へ送信する。
The driving
Also, the running
The running
車両操作制御部23は、次に説明する操作内容推論部31が、走行状態取得部22が送信した送信状態を基に推論した、操作の内容を受信し、これを基にしてドライブロボット4を制御する制御信号を生成して、ドライブロボット4へ送信する。
The vehicle
次に、操作の内容の学習時における、学習部30の構成要素の挙動を説明する。
学習部30の操作内容推論部31は、機械学習器を備えている。この機械学習器は、強化学習されることにより、第1学習モデル40が生成される。第1学習モデル40は、車両2の操作の内容を推論するのに使用される。すなわち、機械学習器は、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される、適切な学習パラメータが学習された学習済みモデル40を生成するものである。
学習部30は、この機械学習器を強化学習するに際し、強化学習に必要な入力となる、走行データを蓄積する。制御装置10が、学習がまだ終了していない、学習途中の機械学習器によって推論された操作の内容によって、一連のデータ収集を行う際における時間単位であるエピソードごとに車両2を走行制御することにより、走行データが蓄積される。この走行データにより機械学習器を強化学習した後に、この出力となる操作の内容を用いて再度走行データを蓄積し、機械学習器を再度学習する。このように、機械学習器を繰り返し更新することにより、最終的に強化学習された、学習済みの第1学習モデル40が生成される。
以下、説明を簡単にするため、操作内容推論部31が備えている機械学習器と、これが学習されて生成される学習モデルをともに、第1学習モデル40と呼称する。
Next, the behavior of the constituent elements of the
The operation
The
Hereinafter, for the sake of simplicity, the machine learning device included in the operation
操作内容推論部31は、ある時刻(第1の時刻)において、走行状態取得部22から走行状態を受信すると、これを基に、学習中の第1学習モデル40により、第1の時刻より後の車両2の操作の内容を推論する。
When the operation
第1学習モデル40は、所定の第1の時間間隔をおいて、車両2の操作の内容を推論する。この、第1学習モデル40における推論の間隔を、以降、ステップ周期Tstepと呼称する。
ドライブロボット制御部20は、後述するように、ドライブロボット4を制御する制御信号を、ドライブロボット4へと、所定の第2の時間間隔をおいて送信する。この、制御信号の送信間隔を制御周期Tsとすると、ステップ周期Tstepは、制御周期Tsと同等であってもよいし、制御周期Tsよりも大きな値であってもよい。ステップ周期Tstepが制御周期Tsよりも大きな値である場合には、第1学習モデル40は、一度の推論により、ステップ周期Tstepに含まれる複数の制御周期Tsに相当する、複数の、車両2の操作の内容を出力する。
本実施形態においては、操作内容推論部31は、第1学習モデル40によって、第1の時刻からステップ周期Tstep後までの時間範囲内の、複数の制御周期Tsに相当する複数の時刻における操作の内容を推論する。
The
As will be described later, the drive
In the present embodiment, the operation content inference unit 31 uses the
また、第1学習モデル40は、上記のように、第1の時刻より後の、少なくともステップ周期Tstep後までの将来にわたる車両2の操作の内容を推論するが、この推論の対象となる時間間隔は、実際には、ステップ周期Tstepよりも大きくてもよい。すなわち、第1学習モデル40は、実際には、ステップ周期Tstep後までの時間範囲内における車両2の操作の内容を推論すると同時に、ステップ周期Tstep後よりも更に将来の時刻における、車両2の操作の内容を推論してもよい。この、第1学習モデル40によって推論する時間範囲を、行動出力時間Tpredと呼称する。この場合においては、操作内容推論部31は、第1学習モデル40によって、第1の時刻から行動出力時間Tpred後までの時間範囲内の、複数の制御周期Tsに相当する複数の時刻における操作の内容を推論する。
このようにした場合においては、第1学習モデル40は、実際に車両2が操作されるステップ周期Tstep後までの操作の内容を推測するに際し、ステップ周期Tstepよりも更に後の時刻における車両2の操作の内容を推測するため、将来の状況を見越した推測をするようになる可能性がある。
In addition, as described above, the
In this case, the
図3は、第1学習モデル40のブロック図である。
本実施形態においては、第1学習モデル40は、中間層を3層とした全5層の全結合型のニューラルネットワークにより実現されている。第1学習モデル40は、入力層41、中間層42、及び出力層43を備えている。
図3においては、各層が矩形として描かれており、各層に含まれるノードは省略されている。
FIG. 3 is a block diagram of the
In the present embodiment, the
In FIG. 3, each layer is drawn as a rectangle, and the nodes included in each layer are omitted.
入力層41は、複数の入力ノードを備えている。複数の入力ノードの各々は、例えばアクセルペダル検出量s1、ブレーキペダル検出量s2から、指令車速sNに至るまでの、走行状態sの各々に対応するように設けられている。
既に説明したように、各走行状態sは、複数の値により実現されている。例えば、図3においては、一つの矩形として示されている、アクセルペダル検出量s1に対応する入力は、実際には、アクセルペダル検出量s1の複数の値の各々に対応するように、入力ノードが設けられている。
各入力ノードには、走行状態取得部22から受信した、対応する走行状態sの値が格納される。
The
As already explained, each running state s is realized by a plurality of values. For example, in FIG. 3, the input corresponding to the accelerator pedal detection amount s1, which is shown as one rectangle, actually corresponds to each of a plurality of values of the accelerator pedal detection amount s1. is provided.
Each input node stores the value of the corresponding running state s received from the running
中間層42は、第1中間層42a、第2中間層42b、及び第3中間層42cを備えている。
中間層42の各ノードにおいては、前段の層(例えば、第1中間層42aの場合は入力層41、第2中間層42bの場合は第1中間層42a)の各ノードから、この前段の層の各ノードに格納された値と、前段の層の各ノードから当該中間層42のノードへの重みを基にした演算がなされて、当該中間層42のノード内に演算結果が格納される。
本実施形態においては、この演算において使用される活性化関数は、例えばReLU(Rectified Linear Unit)である。
The
At each node of the
In this embodiment, the activation function used in this operation is, for example, ReLU (Rectified Linear Unit).
出力層43においても、中間層42の各々と同様な演算が行われ、出力層43に備えられた各出力ノードに演算結果が格納される。複数の出力ノードの各々は、操作の内容aの各々に対応するように設けられている。本実施形態においては、車両2の操作の対象は、アクセルペダル2cとブレーキペダル2dであり、これに対応して、操作の内容aは、例えばアクセルペダル操作a1とブレーキペダル操作a2となっている。
既に説明したように、各操作の内容aは、複数の値により実現されている。例えば、図3においては、一つの矩形として示されている、アクセルペダル操作a1に対応する出力は、実際には、アクセルペダル操作a1の複数の値の各々に対応するように、出力ノードが設けられている。
In the
As already explained, the content a of each operation is realized by a plurality of values. For example, in FIG. 3, the output corresponding to the accelerator pedal operation a1, which is shown as one rectangle, is actually provided with an output node so as to correspond to each of a plurality of values of the accelerator pedal operation a1. It is
第1学習モデル40においては、上記のように走行状態sが入力されて、適切な操作の内容aを演算することができるように学習がなされる。この学習においては、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値が調整される。
第1学習モデル40の具体的な学習については、後に説明する。
In the
Specific learning of the
操作内容推論部31は、上記のように、第1の時刻における走行状態sを基に、第1の時刻より後の行動出力時間Tpredまでにおける車両2の操作の内容aを推論し、ドライブロボット制御部20の車両操作制御部23へ送信する。
この操作の内容aに基づき、車両操作制御部23はステップ周期Tstepの間、ドライブロボット4を操作する。
そして、走行状態取得部22は、操作後の車両2の、第1の時刻よりも後の第2の時刻における走行状態を再度取得する。
As described above, the operation
Based on this operation content a, the vehicle
Then, the running
以降においては、第1の時刻で取得された走行状態と第2の時刻で取得された走行状態を区別して記載するため、第1の時刻で取得された走行状態を走行状態st、第2の時刻で取得された走行状態を走行状態st+1と記載する。また、第1の時刻で取得された走行状態stに対して推論され、実行された操作の内容を操作の内容atと記載する。
操作内容推論部31は、第1の時刻における走行状態st、これに対して推論され実際に実行された操作の内容at、及び第2の時刻における走行状態st+1を、次に説明する報酬計算部32に送信する。
報酬計算部32は、強化学習に際し必要となる値である報酬を計算する。後述する強化学習部33は、この報酬を基に、操作の内容atがどの程度適切であったかを示す行動価値を計算し、第1学習モデル40は、この行動価値が高くなるような操作の内容aを出力するように、強化学習が行われる。
報酬計算部32によって計算された報酬は、操作内容推論部31に送信されて操作内容推論部31により受信され、これを受けて操作内容推論部31は、第1の時刻における走行状態st、操作の内容at、第2の時刻における走行状態st+1と、及び受信した報酬の組み合わせを、学習用データ記憶部34へ送信し、記憶する。
Hereinafter, in order to distinguish between the running state acquired at the first time and the running state acquired at the second time, the running state acquired at the first time is the running state s t , the second The running state obtained at the time of is described as running state st+1 . Further, the content of the operation inferred and executed for the running state st acquired at the first time is described as the content of operation at.
The operation
The
The reward calculated by the
報酬計算部32は、操作内容推論部31から、第1の時刻における走行状態st、操作の内容at、及び第2の時刻における走行状態st+1を受信する。報酬は、操作の内容at、及びこれに伴う第2の時刻における走行状態st+1が望ましくないほど小さい値を、望ましいほど大きい値を、有するように設計されている。強化学習部33は、後述の数式2により、報酬が大きいほど行動価値(評価値)を高くするように計算し、第1学習モデル40はこの行動価値が高くなるような操作の内容atを出力するように、強化学習が行われる。
The
本実施形態においては、制御装置10は、燃費や排ガス性能を考慮してドライブロボット4を制御するものであるため、報酬には、燃費と排ガス性能が反映されている。
燃費は、例えばガソリンや軽油などの燃料の、単位容量当たりの走行距離、または、一定の距離をどれだけの燃料で走行できるかを示す指標である。
排ガス性能は、排気ガスに含まれる、一酸化炭素、窒素酸化物、炭化水素類、黒煙等の大気汚染物質の濃度が、一定の基準以下であるか否かを示す指標である。
これら燃費や排ガス性能は、車両2の操作という観点では、アクセルペダル2cとブレーキペダル2dの操作が関連する。すなわち、報酬は、アクセルペダル2cとブレーキペダル2dの検出量に基づいて計算されるのが適切である。
In this embodiment, the
The fuel consumption is an index that indicates how much fuel can be used to travel a certain distance or distance per unit capacity of fuel such as gasoline or light oil.
Exhaust gas performance is an index that indicates whether the concentration of air pollutants such as carbon monoxide, nitrogen oxides, hydrocarbons, and black smoke contained in exhaust gas is below a certain standard.
From the viewpoint of operation of the
ただし、燃費や排ガス性能を向上させることに注目するあまり、制御装置10が本来達成すべき、指令車速への追従性能が損なわれることがあってはならない。このため、報酬は、アクセルペダル2cとブレーキペダル2dの検出量に加えて、指令車速への追従性能に基づいて計算されるのが望ましい。
However, too much attention should be paid to improving fuel efficiency and exhaust gas performance, and the ability to follow the commanded vehicle speed, which the
本実施形態においては、rsを指令車速への追従性に基づいて計算される指令車速報酬要素(第2要素)、rAPをアクセルペダル2cの検出量に基づいて計算されるアクセルペダル報酬要素(第1要素)、rBPをブレーキペダル2dの検出量に基づいて計算されるブレーキペダル報酬要素(第1要素)としたときに、報酬rは、次の数式1によって表わされる。
ここで、ws、wAP、wBPは、それぞれ、指令車速報酬要素rs、アクセルペダル報酬要素rAP、ブレーキペダル報酬要素rBPに対応した重みである。
In this embodiment, rs is a commanded vehicle speed reward element (second element) calculated based on the ability to follow the commanded vehicle speed, and rAP is an accelerator pedal reward element calculated based on the detected amount of the
Here, w s , w AP , and w BP are weights corresponding to command vehicle speed reward element r s , accelerator pedal reward element r AP , and brake pedal reward element r BP , respectively.
このように、報酬rは、指令車速への追従性や、アクセルペダル2c、ブレーキペダル2dの検出量等の、各要素に対応する報酬要素を計算したうえで、これらの重みづけ和を計算することで、一つのスカラー値として計算されている。
In this way, the reward r is calculated by calculating the weighted sum of the reward elements corresponding to each element, such as the followability to the commanded vehicle speed and the detected amount of the
指令車速報酬要素rsは、例えば、操作内容推論部31から受信した第2の時刻における走行状態st+1において、検出車速と指令車速の差分の絶対値を計算し、これが所定の第1閾値以下であれば、差分値が小さいほど大きな値となる、正の値とし、第1閾値よりも大きければ、差分値が大きいほど小さな値となる、負の値とすることで、計算され得る。
この場合においては、操作の内容atによって検出車速が指令車速に十分に追従できている場合においては、検出車速と指令車速の差分の絶対値は第1閾値以下の値となり、指令車速報酬要素rsの値が大きくなる。逆に、検出車速が指令車速に十分に追従できていない場合においては、検出車速と指令車速の差分の絶対値は第1閾値よりも大きな値となり、指令車速報酬要素rsの値が小さくなる。
このように、操作の内容atに基づいたドライブロボット4の操作の後の、第2の時刻における検出車速と指令車速との差が小さいほど値が大きくなるように設定された指令車速報酬要素rs(第2要素)が計算され、指令車速報酬要素rsを基に報酬rが計算されている。
The commanded vehicle speed reward element r s , for example, calculates the absolute value of the difference between the detected vehicle speed and the commanded vehicle speed in the running state s t+1 at the second time received from the operation
In this case, when the detected vehicle speed can sufficiently follow the commanded vehicle speed due to the operation content at, the absolute value of the difference between the detected vehicle speed and the commanded vehicle speed becomes a value equal to or less than the first threshold value, and the commanded vehicle speed reward element. The value of r s increases. Conversely, when the detected vehicle speed does not sufficiently follow the commanded vehicle speed, the absolute value of the difference between the detected vehicle speed and the commanded vehicle speed becomes a value larger than the first threshold, and the value of the commanded vehicle speed reward element rs becomes smaller. .
In this way, the commanded vehicle speed reward element is set such that the smaller the difference between the detected vehicle speed and the commanded vehicle speed at the second time after the operation of the
アクセルペダル報酬要素rAPに関しては、例えば、操作内容推論部31から受信した第2の時刻における走行状態st+1において、第1の時刻からのアクセルペダル検出量の推移を取得し、時間軸と、アクセルペダル2cの検出量を軸とする座標系上で、検出量を関数として表現する。アクセルペダル報酬要素rAPは、この関数の二階微分または一階微分の値を基に計算され得る。
Regarding the accelerator pedal reward element rAP , for example, in the running state s t+1 at the second time received from the operation
二階微分の場合においては、例えば、上記関数の二階微分の最大値の絶対値を計算し、これが所定の第2閾値(所定の閾値)以下であれば、最大値の絶対値が小さいほど大きな値となる、正の値とし、第2閾値よりも大きければ、最大値の絶対値が大きいほど小さな値となる、負の値とすることで、計算され得る。
この場合においては、操作の内容atにおいてアクセルペダル2cの開度が急激に変わらず、燃費や排ガス性能が良好であると考えられる場合においては、上記曲線の接線の傾きは時間と共に大きく変化せず、したがって関数の二階微分の最大値の絶対値は第2閾値以下の値となり、アクセルペダル報酬要素rAPの値が大きくなる。逆に、操作の内容atにおいてアクセルペダル2cの開度が急激に変化し、燃費や排ガス性能が良好ではないと考えられる場合においては、上記曲線の接線の傾きは時間と共に大きく変化し、したがって関数の二階微分の最大値の絶対値は第2閾値よりも大きな値となり、アクセルペダル報酬要素rAPの値が小さくなる。
In the case of the second derivative, for example, the absolute value of the maximum value of the second derivative of the above function is calculated. , and if it is larger than the second threshold, it becomes a negative value that decreases as the absolute value of the maximum value increases.
In this case, if the degree of opening of the accelerator pedal 2c does not change abruptly in the operation contents at, and the fuel consumption and exhaust gas performance are considered to be good, the slope of the tangent line of the above curve does not change greatly with time. Therefore, the absolute value of the maximum value of the second derivative of the function becomes a value equal to or less than the second threshold value, and the value of the accelerator pedal reward element rAP becomes large. Conversely, when the degree of opening of the accelerator pedal 2c changes abruptly in the operation at at, and the fuel consumption and exhaust gas performance are considered unsatisfactory, the slope of the tangent to the above curve changes greatly over time. The absolute value of the maximum value of the second derivative of the function becomes a value larger than the second threshold, and the value of the accelerator pedal reward element r AP becomes smaller.
一階微分の場合においても同様に、例えば、上記関数の一階微分の最大値の絶対値を計算し、これが所定の第3閾値(所定の閾値)以下であれば、最大値の絶対値が小さいほど大きな値となる、正の値とし、第3閾値よりも大きければ、最大値の絶対値が大きいほど小さな値となる、負の値とすることで、計算され得る。
この場合においては、操作の内容atにおいてアクセルペダル2cの開度が急激に変わらず、燃費や排ガス性能が良好であると考えられる場合においては、上記曲線の接線の傾きは大きくはなく、したがって関数の一階微分の最大値の絶対値は第3閾値以下の値となり、アクセルペダル報酬要素rAPの値が大きくなる。逆に、操作の内容atにおいてアクセルペダル2cの開度が急激に変化し、燃費や排ガス性能が良好ではないと考えられる場合においては、上記曲線の接線の傾きは大きくなり、したがって関数の一階微分の最大値の絶対値は第3閾値よりも大きな値となり、アクセルペダル報酬要素rAPの値が小さくなる。
Similarly, in the case of the first derivative, for example, the absolute value of the maximum value of the first derivative of the above function is calculated. The smaller the value, the larger the positive value, and if the value is greater than the third threshold, the larger the absolute value of the maximum value, the smaller the negative value.
In this case, when the degree of opening of the accelerator pedal 2c does not change abruptly in the operation at, and the fuel efficiency and exhaust gas performance are considered to be good, the slope of the tangent line of the curve is not large. The absolute value of the maximum value of the first derivative of the function becomes a value equal to or less than the third threshold value, and the value of the accelerator pedal reward element r AP increases. Conversely, when the degree of opening of the accelerator pedal 2c changes abruptly in the operation at at, and the fuel efficiency and exhaust gas performance are considered unsatisfactory, the slope of the tangent line of the above curve increases. The absolute value of the maximum value of the differential is greater than the third threshold value, and the value of the accelerator pedal reward element r AP becomes smaller.
このように、アクセルペダル報酬要素rAPは、第1の時刻から第2の時刻までのアクセルペダル検出量の推移を関数として表わしたときに、関数の一階微分または二階微分の最大値の絶対値が所定の第2、第3閾値以下であれば、最大値の絶対値に応じた正の値となるように、かつ、最大値の絶対値が所定の第2、第3閾値よりも大きければ、最大値の絶対値に応じた負の値となるように、計算されている。 Thus, the accelerator pedal reward element rAP is the absolute value of the maximum value of the first derivative or second derivative of the function when the transition of the accelerator pedal detection amount from the first time to the second time is expressed as a function. If the value is equal to or less than the predetermined second and third thresholds, it becomes a positive value corresponding to the absolute value of the maximum value, and if the absolute value of the maximum value is greater than the predetermined second and third thresholds. For example, it is calculated to be a negative value corresponding to the absolute value of the maximum value.
ブレーキペダル報酬要素rBPに関しても同様で、例えば、操作内容推論部31から受信した第2の時刻における走行状態st+1において、第1の時刻からのブレーキペダル検出量の推移を取得し、時間軸と、ブレーキペダル2dの検出量を軸とする座標系上で、検出量を関数として表現する。ブレーキペダル報酬要素rBPは、この関数の二階微分または一階微分の値を基に計算され得る。
The same applies to the brake pedal reward element r BP . , the detected amount is expressed as a function on a coordinate system whose axis is the detected amount of the
二階微分の場合においては、例えば、上記関数の二階微分の最大値の絶対値を計算し、これが所定の第4閾値(所定の閾値)以下であれば、最大値の絶対値が小さいほど大きな値となる、正の値とし、第4閾値よりも大きければ、最大値の絶対値が大きいほど小さな値となる、負の値とすることで、計算され得る。
この場合においては、操作の内容atにおいてブレーキペダル2dの開度が急激に変わらず、燃費や排ガス性能が良好であると考えられる場合においては、上記曲線の接線の傾きは時間と共に大きく変化せず、したがって関数の二階微分の最大値の絶対値は第4閾値以下の値となり、ブレーキペダル報酬要素rBPの値が大きくなる。逆に、操作の内容atにおいてブレーキペダル2dの開度が急激に変化し、燃費や排ガス性能が良好ではないと考えられる場合においては、上記曲線の接線の傾きは時間と共に大きく変化し、したがって関数の二階微分の最大値の絶対値は第4閾値よりも大きな値となり、ブレーキペダル報酬要素rBPの値が小さくなる。
In the case of the second derivative, for example, the absolute value of the maximum value of the second derivative of the above function is calculated. , and if it is greater than the fourth threshold value, the larger the absolute value of the maximum value, the smaller the negative value.
In this case, when the degree of opening of the brake pedal 2d does not change abruptly in the operation contents at, and the fuel consumption and exhaust gas performance are considered to be good, the slope of the tangent line of the above curve does not change greatly with time. Therefore, the absolute value of the maximum value of the second derivative of the function becomes a value equal to or less than the fourth threshold value, and the value of the brake pedal reward element rBP becomes large. Conversely, when the degree of opening of the brake pedal 2d changes abruptly in the operation content at, and the fuel consumption and exhaust gas performance are considered to be poor, the slope of the tangent line of the curve changes greatly with time, and therefore The absolute value of the maximum value of the second derivative of the function becomes a value larger than the fourth threshold, and the value of the brake pedal reward element rBP becomes small.
一階微分の場合においても同様に、例えば、上記関数の一階微分の最大値の絶対値を計算し、これが所定の第5閾値(所定の閾値)以下であれば、最大値の絶対値が小さいほど大きな値となる、正の値とし、第5閾値よりも大きければ、最大値の絶対値が大きいほど小さな値となる、負の値とすることで、計算され得る。
この場合においては、操作の内容atにおいてブレーキペダル2dの開度が急激に変わらず、燃費や排ガス性能が良好であると考えられる場合においては、上記曲線の接線の傾きは大きくはなく、したがって関数の一階微分の最大値の絶対値は第5閾値以下の値となり、ブレーキペダル報酬要素rBPの値が大きくなる。逆に、操作の内容atにおいてブレーキペダル2dの開度が急激に変化し、燃費や排ガス性能が良好ではないと考えられる場合においては、上記曲線の接線の傾きは大きくなり、したがって関数の一階微分の最大値の絶対値は第5閾値よりも大きな値となり、ブレーキペダル報酬要素rBPの値が小さくなる。
Similarly, in the case of the first-order derivative, for example, the absolute value of the maximum value of the first-order derivative of the above function is calculated. The smaller the value, the larger the positive value, and if the value is greater than the fifth threshold, the larger the absolute value of the maximum value, the smaller the negative value.
In this case, when the degree of opening of the brake pedal 2d does not change abruptly in the operation at at, and the fuel consumption and exhaust gas performance are considered to be good, the slope of the tangent line of the curve is not large. The absolute value of the maximum value of the first derivative of the function becomes a value equal to or lower than the fifth threshold, and the value of the brake pedal reward element rBP becomes large. Conversely, when the degree of opening of the brake pedal 2d changes abruptly in the operation at at, and the fuel consumption and exhaust gas performance are considered to be poor, the slope of the tangent line of the above curve becomes large. The absolute value of the maximum value of the differential is larger than the fifth threshold, and the value of the brake pedal reward element rBP becomes smaller.
このように、ブレーキペダル報酬要素rBPは、第1の時刻から第2の時刻までのブレーキペダル検出量の推移を関数として表わしたときに、関数の一階微分または二階微分の最大値の絶対値が所定の第4、第5閾値以下であれば、最大値の絶対値に応じた正の値となるように、かつ、最大値の絶対値が所定の第4、第5閾値よりも大きければ、最大値の絶対値に応じた負の値となるように、計算されている。 In this way, the brake pedal reward element rBP is the absolute value of the maximum value of the first or second derivative of the function when the transition of the brake pedal detection amount from the first time to the second time is expressed as a function. If the value is equal to or less than the predetermined fourth and fifth thresholds, it becomes a positive value corresponding to the absolute value of the maximum value, and if the absolute value of the maximum value is greater than the predetermined fourth and fifth thresholds. For example, it is calculated to be a negative value corresponding to the absolute value of the maximum value.
上記のように、アクセルペダル2c及びブレーキペダル2dの検出量の変化が小さいほど値が大きくなるように設定されたアクセルペダル報酬要素rAP、ブレーキペダル報酬要素rBPが計算され、アクセルペダル報酬要素rAP、ブレーキペダル報酬要素rBPを基に報酬rが計算されている。このように、報酬rは、入力された操作の内容atが、対応する第2の時刻における走行状態st+1での燃費と排ガス性能が高くなると考えられるものであるほど、大きな値となるように計算されている。
As described above, the accelerator pedal reward element rAP and the brake pedal reward element rBP are calculated so that the smaller the change in the detected amount of the
既に説明したように、上記の数式1によって計算された報酬rは、操作内容推論部31へ送信されて、第1の時刻における走行状態st、操作の内容at、第2の時刻における走行状態st+1と共に組み合わされて、学習用データ記憶部34へ送信される。
ここで、報酬rは、第2の時刻における走行状態st+1に対して計算されたものであるから、以降、報酬rt+1と記載する。
学習用データ記憶部34は、操作内容推論部31から送信された、第1の時刻における走行状態st、操作の内容at、第2の時刻における走行状態st+1、及び報酬rt+1の組み合わせを受信して、記憶する。
この組み合わせは、走行データとして、第1学習モデル40の強化学習に使用される。
As already explained, the reward r calculated by the
Here, since the reward r is calculated for the running state s t+1 at the second time, it is hereinafter referred to as the reward r t+1 .
The learning
This combination is used for reinforcement learning of the
学習部30は、強化学習に十分なデータが学習用データ記憶部34に記憶されるまで、操作内容推論部31による操作の内容atの推論と、操作の内容atがドライブロボット4によって実行された後の状態st+1の取得、及び報酬計算部32によるこれを基にした報酬rt+1の計算を繰り返し、走行データを学習用データ記憶部34に蓄積する。
学習用データ記憶部34に、強化学習に十分な量の走行データが蓄積されると、次に説明する強化学習部33により強化学習が実行される。
The
When a sufficient amount of travel data for reinforcement learning is accumulated in the learning
強化学習部33は、学習用データ記憶部34から、複数の走行データを取得し、これを使用して、第1学習モデル40を強化学習する。以下に説明するように、強化学習部33は、本実施形態においては、深層強化学習アルゴリズムDDPG(Deep Deterministic Policy Gradient)によって、第1学習モデル40と、後に説明する、強化学習部33に設けられた第2学習モデル50を並行して学習させているが、強化学習に用いられるアルゴリズムは、DDPG以外の他のアルゴリズムであってもよい。
まず、第1学習モデル40の学習について説明する。
The
First, learning of the
既に説明したように、強化学習部33は、操作の内容atがどの程度適切であったかを示す行動価値を計算し、第1学習モデル40が、この行動価値が高くなるような操作の内容atを出力するように、強化学習を行う。この行動価値(評価値)は、第1の時刻における走行状態stと、これに対する操作の内容atを引数とした関数Q(st、at)として、次の式で表わされる。
As already explained, the
上式において、γは割引率であり、αは学習率である。
行動価値関数Q(st、at)は、第1の時刻における走行状態stにおいて操作の内容atを実行した際に、以降の時刻において最終的に得られると考えられる収益、すなわち時間割引報酬の和の期待値を表す。maxQ(st+1、a)は、第2の時刻においてとり得る操作の内容aに対する行動価値関数Qの最大値であり、これに割引率γを乗算して報酬rt+1を加算した値は、第1の時刻において操作の内容atを実行し、報酬rt+1を受け取った後の、すなわち第2の時刻における行動価値である。この、第2の時刻における行動価値と、第1の時刻における行動価値Q(st、at)の差分であるTD(Temporal Difference)誤差に対し、学習率αを乗算して、元々の行動価値関数Q(st、at)に加算することにより、行動価値関数Q(st、at)を更新する。
すなわち、上記の数式2は、行動価値関数Q(st、at)の更新式であり、行動価値関数Q(st、at)は随時、更新される。
where γ is the discount rate and α is the learning rate.
The action value function Q ( s t , a t ) is the profit, that is, the time Represents the expected value of the sum of discounted rewards. maxQ(s t+1 , a) is the maximum value of the action value function Q for the content a of the operation that can be performed at the second time, and the value obtained by multiplying this by the discount rate γ and adding the reward r t+1 is the It is the action value at the second time, that is, after executing the content of the operation at at
That is,
既に説明したように、強化学習部33は、上記の数式2により、報酬rt+1が大きいほど行動価値Q(st、at)を高くするように計算する。この行動価値Q(st、at)が高くなるような操作の内容aを第1学習モデル40が出力するように、第1学習モデル40の強化学習は実行される。ここで、上記のように数式2は行動価値関数Q(st、at)の更新式であるため、第1学習モデル40が学習されて走行状態stと操作の内容atの出力が変化すると、行動価値関数Q(st、at)自体も更新される。
このように、強化学習部33は、第1学習モデル40の学習と、行動価値関数Q(st、at)の更新を、並行して、例えば交互に繰り返すことにより、実行する。
As already explained, the
In this way, the
第1学習モデル40は、上記のように、行動価値の高い操作の内容aを出力することを目的としている。すなわち、行動価値関数Q(st、at)の値ができるだけ大きい操作の内容aを出力するように、第1学習モデル40の学習は実行される。
本実施形態においては、μ(st)を、第1学習モデル40に走行状態stを入力としたときの出力関数(すなわち操作の内容at)としたときに、「-Q(st、μ(st))」の値を損失関数とし、これをできるだけ小さくする操作の内容atを出力するように、第1学習モデル40を学習させる。すなわち、誤差逆伝搬法、確率的勾配降下法等により、この損失関数が減る方向に重みやバイアスの値等の、ニューラルネットワークを構成する各パラメータの値を調整することによって、強化学習部33は第1学習モデル40を学習させる。
The purpose of the
In the present embodiment, when μ(s t ) is the output function (that is, operation content a t ) when the driving state s t is input to the
ここで、既に説明したように、本実施形態においては強化学習としてDDPGを用いている。すなわち、強化学習部33は、ニューラルネットワークにより実現された第2学習モデル50を備えており、数式2における行動価値関数Q(st、at)を、関数近似器としての第2学習モデル50により計算している。
Here, as already explained, DDPG is used as reinforcement learning in this embodiment. That is, the
図4は、第2学習モデル50のブロック図である。
本実施形態においては、第2学習モデル50は、第1学習モデル40と同様に、中間層を3層とした全5層の全結合型のニューラルネットワークにより実現されている。第2学習モデル50は、入力層51、中間層52、及び出力層53を備えている。
図4においては、各層が矩形として描かれており、各層に含まれるノードは省略されている。
FIG. 4 is a block diagram of the
In this embodiment, like the
In FIG. 4, each layer is drawn as a rectangle, and the nodes included in each layer are omitted.
入力層51は、複数の入力ノードを備えている。複数の入力ノードの各々は、例えばアクセルペダル検出量s1、ブレーキペダル検出量s2から、指令車速sNに至るまでの、走行状態sの各々と、及び、例えばアクセルペダル操作a1とブレーキペダル操作a2の、操作の内容aの各々に対応するように設けられている。このように、上記の数式2における行動価値関数Q(st、at)の引数に対応するように、入力ノードが設けられている。
第1学習モデル40と同様に、各走行状態sは、複数の値により実現されている。例えば、図4においては、一つの矩形として示されている、アクセルペダル検出量s1に対応する入力は、実際には、アクセルペダル検出量s1の複数の値の各々に対応するように、入力ノードが設けられている。
また、各操作の内容aも、第1学習モデル40と同様に、複数の値により実現されている。例えば、図4においては、一つの矩形として示されている、アクセルペダル操作a1に対応する出力は、実際には、アクセルペダル操作a1の複数の値の各々に対応するように、入力ノードが設けられている。
各入力ノードには、学習用データ記憶部34から受信した、第1の時刻における走行状態stと、操作の内容atの値が格納される。
The
As with the
Also, the content a of each operation is realized by a plurality of values, as in the case of the
Each input node stores the value of the running state st at the first time and the content of the operation at at the first time, which are received from the learning
中間層52は、第1中間層52a、第2中間層52b、及び第3中間層52cを備えている。
中間層52の各ノードにおいては、前段の層(例えば、第1中間層52aの場合は入力層51、第2中間層52bの場合は第1中間層52a)の各ノードから、この前段の層の各ノードに格納された値と、前段の層の各ノードから当該中間層52のノードへの重みを基にした演算がなされて、当該中間層52のノード内に演算結果が格納される。
本実施形態においては、この演算において使用される活性化関数は、例えばReLU(Rectified Linear Unit)である。
The
At each node of the
In this embodiment, the activation function used in this operation is, for example, ReLU (Rectified Linear Unit).
出力層53においても、中間層52の各々と同様な演算が行われ、出力層53に備えられた出力ノードに演算結果が格納される。本実施形態においては、出力ノードは、例えば1つであり、これが、計算された行動価値関数Q(st、at)の値に相当する。
In the
第2学習モデル50においても、走行状態sと操作の内容aが入力されて、適切な行動評価関数Qを演算することができるように学習がなされる。この学習においては、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値が調整される。
第2学習モデル50は、次式を損失関数として、これをできるだけ小さくするように学習される。
In the
The
上式は、第1学習モデル40において説明した、TD誤差に相当する。TD誤差は、第2の時刻における行動価値である、第2の時刻において実行する操作の内容μ(st+1)に対する行動価値関数Qに割引率γを乗算して報酬rt+1を加算した値と、第1の時刻における行動価値Q(st、at)との差分である。このため、TD誤差(の二乗)を最小化することにより、行動価値Q(st、at)として適切な値が出力されるように第1学習モデル40が学習される。
第2学習モデル50においても、第1学習モデル40と同様に、誤差逆伝搬法、確率的勾配降下法等により、数式3として示された損失関数が減る方向に重みやバイアスの値等の、ニューラルネットワークを構成する各パラメータの値を調整することによって、第2学習モデル50は学習される。
The above expression corresponds to the TD error described in the
In the
このように、本実施形態においては、第1学習モデル40は、操作の内容atに基づいたドライブロボット4の操作の後の、第1の時刻より後の第2の時刻における走行状態st+1に基づいて、燃費と排ガス性能のいずれか一方または双方がより高い操作の内容atであるほど大きな値となるように計算された報酬rt+1を基に、強化学習されている。
また、第1学習モデル40は、報酬rt+1を基に操作の内容atを評価して操作の内容atの評価値Q(st、at)を計算する第2学習モデル50によって計算された、評価値Q(st、at)を基に、評価値Q(st、at)がより高い操作の内容を推論するように学習されている。
更に、第2学習モデル50は、第1学習モデル40により出力された操作の内容atを入力とし、報酬rt+1が大きいほど高い評価値Q(st、at)を出力するように学習され、これら第1学習モデル40と第2学習モデルの学習50が繰り返されることにより、第1学習モデル40と第2学習モデルの学習50は強化学習されている。
Thus, in the present embodiment, the
In addition, the
Further, the
以上のように、制御装置10は、操作の内容の学習時においては、学習が中途の状態における第1学習モデル40によって、現在(第1の時刻)の走行状態stにおいて実行すべき操作の内容atを推論する。また、制御装置10は、この操作の内容atを実行した後の時刻(第2の時刻)において、操作の内容atの実行によって変化した走行状態st+1を基に、報酬rt+1を取得する。このようにして、制御装置10は、まず走行データを蓄積する。
蓄積された走行データを基に、第1の時刻の走行状態stと、学習が中途の状態における第1学習モデル40によって推論された操作の内容atを入力として、報酬rt+1を基に、現状の第1学習モデル40の出力となる操作の内容atを適切に評価できるように、第2学習モデル50を学習する。
この学習後の第2学習モデル50を用いて、これが出力する評価値Q(st、at)が大きな操作の内容atを出力するように、第1学習モデル40を学習する。
これにより、第1学習モデル40が出力する操作の内容atが変化するため、再度走行データを蓄積する。
このように、走行データの蓄積と、第1学習モデル40及び第2学習モデル50の学習を繰り返すことで、第1学習モデル40及び第2学習モデル50の学習が完了する。
As described above, when the
Based on the accumulated driving data, the driving state s t at the first time and the operation content at inferred by the
Using the
As a result , the operation content at output by the
By repeating the accumulation of travel data and the learning of the
本実施形態において、制御装置10は、第1学習モデル40及び第2学習モデル50の学習において、例えば、各々の、学習前後における損失関数の差が一定の値以下となった場合に、学習を繰り返したとしてもその効果が十分に見込めないと判断し、学習を終了する。
In the present embodiment, in the learning of the
次に、実際に車両2の性能測定に際して操作の内容を推論する場合での、すなわち、第1学習モデル40の強化学習が終了した後における、制御装置10の各構成要素の挙動について説明する。
Next, the behavior of each component of the
走行状態取得部22は、現在時点における、車両2の走行状態を取得する。
走行状態取得部22は、車両2に備えられた様々な図示されない計測器やドライブロボット4内に記録された操作実績等から、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速を取得する。
また、走行状態取得部22は、指令車速記憶部21から、指令車速を取得する。
走行状態取得部22は、これらの取得した走行状態を、学習部30へ送信する。
The running
The driving
Also, the running
The running
学習部30の操作内容推論部31は、ある時刻(第1の時刻)において、走行状態取得部22から走行状態を取得すると、これを基に、学習済みの第1学習モデル40により、第1の時刻より後の車両2の操作の内容aを推論する。
この第1学習モデル40は、操作の内容aに基づいたドライブロボット4の操作の後の、第1の時刻より後の第2の時刻における走行状態sに基づいて、燃費と排ガス性能のいずれか一方または双方がより高い操作の内容aであるほど大きな値となるように計算された報酬rを基に、強化学習されている、学習済みのモデルである。
When the operation
This
操作内容推論部31は、学習部30によって事前に強化学習されて、重みやバイアスの値等の、ニューラルネットワークを構成する各パラメータの値が調整、決定された、学習済みの第1学習モデル40が、例えばCPU上でプログラムとして実行されることで、車両2の操作の内容aを推論する。
より詳細には、操作内容推論部31が、受信した走行状態sの各々を、学習済みの第1学習モデル40の入力層41の、対応する入力ノードに入力すると、第1学習モデル40は、入力層41から中間層42を介して出力層43へと順に辿りながら、重みやバイアスの値等を用いて重み付け和を演算する処理を実行する。最終的に出力層43の各出力ノードに、第1の時刻以降に実行すべき操作の内容aが格納される。
操作内容推論部31は、推論した操作の内容aを、車両操作制御部23へ送信する。
The operation
More specifically, when the operation
The operation
車両操作制御部23は、操作内容推論部31から操作の内容aを受信し、この操作の内容aに基づき、ステップ周期Tstepの間、ドライブロボット4を操作する。
The vehicle
次に、図1~図4、及び図5~図7を用いて、上記のドライブロボット4の制御装置10によりドライブロボット4を制御する方法を説明する。図5は、ドライブロボット4の制御方法における、学習時のフローチャートである。図6は、ドライブロボット4の制御方法の、学習時における走行データ収集ステップの、詳細なフローチャートである。図7は、ドライブロボット4の制御方法における、性能測定のために車両2を走行制御させる際のフローチャートである。
本ドライブロボット4の制御方法は、車両2に搭載されて車両2を走行させるドライブロボット4を、車両2が規定された指令車速に従って走行するように制御する、ドライブロボット4の制御方法であって、車両2の走行状態sを取得し、走行状態sは、車両2において検出された車速と、走行状態sが取得された時刻における指令車速を含み、第1の時刻から、第1の時刻より後の車両2の操作の内容aを推論する第1学習モデル40であって、操作の内容aに基づいたドライブロボット4の操作の後の、第1の時刻より後の第2の時刻における走行状態sに基づいて、燃費と排ガス性能のいずれか一方または双方がより高い操作の内容aであるほど大きな値となるように報酬rを計算し、報酬rを基に強化学習された第1学習モデル40により、第1の時刻における走行状態sを基に、車両の操作の内容aを推論し、操作の内容aに基づきドライブロボット4を制御する。
まず、図5、図6を用いて、操作の内容の学習時における動作を説明する。
Next, a method of controlling the
This control method of the
First, with reference to FIGS. 5 and 6, the operation during learning of operation details will be described.
学習が開始されると(ステップS1)、走行環境や第1学習モデル40、第2学習モデル50等の各パラメータが初期設定される(ステップS3)。
その後、図6に示される手順に従い、車両2の走行データを収集する(ステップS5)。
When learning is started (step S1), each parameter of the driving environment, the
After that, travel data of the
既に説明したように、走行データは、一連のデータ収集を行う際における時間単位であるエピソードごとに車両2を走行制御することにより、蓄積される。
エピソードが開始されると(ステップS21)、当該エピソードが開始された時点における、車両2の初期状態を観測する(ステップS23)。エピソードは、車両2が走行制御されている途中において開始される場合もあるため、エピソードの開始時における車両2の初期状態は、車両2が停止している状態はもちろん、走行中の状態をも含み得る。
As already explained, travel data is accumulated by controlling the travel of the
When an episode starts (step S21), the initial state of the
初期状態の観測は、次のように行われる。
走行状態取得部22が、現在時点における、車両2の走行状態sを取得する。
走行状態取得部22は、車両2に備えられた様々な図示されない計測器やドライブロボット4内に記録された操作実績等から、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速を取得する。
また、走行状態取得部22は、指令車速記憶部21から、指令車速を取得する。
走行状態取得部22は、これらの取得した走行状態sを、学習部30へ送信する。
Observation of the initial state is performed as follows.
The running
The driving
Also, the running
The running
操作内容推論部31は、走行状態取得部22から、走行状態sを受信する。操作内容推論部31は、走行状態sを受信した時刻を第1の時刻として、受信した走行状態sを基に、学習中の第1学習モデル40により、第1の時刻より後の車両2の操作の内容を推論する(ステップS25)。
より詳細には、操作内容推論部31は、走行状態sを、第1学習モデル40の入力層41の、各走行状態sに対応する入力ノードに入力する。
中間層42の各ノードにおいては、前段の層(例えば、第1中間層42aの場合は入力層41、第2中間層42bの場合は第1中間層42a)の各ノードから、この前段の層の各ノードに格納された値と、前段の層の各ノードから当該中間層42のノードへの重みを基にした演算がなされて、当該中間層42のノード内に演算結果が格納される。
出力層43においても、中間層42の各々と同様な演算が行われ、出力層43に備えられた各出力ノードに演算結果、すなわち操作の内容aが格納される。
The operation
More specifically, the operation
At each node of the
In the
操作内容推論部31は、この、現在の学習中の第1学習モデル40が推論した操作の内容aを、ドライブロボット制御部20の車両操作制御部23へ送信する。
この操作の内容aに基づき、車両操作制御部23はステップ周期Tstepの間、ドライブロボット4を操作する。
そして、走行状態取得部22は、操作後の車両2の走行状態sを、ステップS23と同様な要領で、再度取得する。
走行状態取得部22は、操作後の車両2の走行状態sを、学習部30へ送信する。
The operation
Based on this operation content a, the vehicle
Then, the running
The running
操作内容推論部31は、走行状態取得部22から、走行状態sを受信する。操作内容推論部31は、走行状態を受信した時刻を、第1の時刻より後の第2の時刻として、第1の時刻における走行状態st、これに対して推論され実際に実行された操作の内容at、及び第2の時刻における走行状態st+1を、報酬計算部32に送信する。
報酬計算部32は、強化学習に際し必要となる値である報酬rt+1を計算して、操作内容推論部31に送信する。
操作内容推論部31は、報酬rt+1を受信する(ステップS27)。
操作内容推論部31は、第1の時刻における走行状態st、操作の内容at、第2の時刻における走行状態st+1と、及び受信した報酬rt+1の組み合わせを、学習用データ記憶部34へ送信し、記憶する(ステップS29)。
The operation
The
The operation
The operation
学習部30は、エピソードが終了したか否かを判定する(ステップS31)。エピソードが終了したと判定した場合には(ステップS31のYes)、エピソードを終了させて(ステップS33)、図5に示されるステップS7へと遷移する。
エピソードが終了していないと判定した場合には(ステップS31のNo)、第2の時刻を第1の時刻とし、第2の時刻における走行状態st+1を第1の時刻における走行状態stと更新したうえで、ステップS25へ遷移し、この新たな第1の時刻における操作の内容aの推論を行う。このように、各時刻において、操作の内容aの推論、推論した操作の内容aを実行した後の状態の取得、これに基づく報酬の計算を繰り返すことにより、制御装置10は、走行データを学習用データ記憶部34に蓄積する。
The
If it is determined that the episode has not ended (No in step S31), the second time is set as the first time, and the running state s t+1 at the second time is set as the running state s t at the first time. After updating, the process proceeds to step S25 to infer the content a of the operation at the new first time. In this way, at each time, the
十分な走行データが学習用データ記憶部34に蓄積されると、これを用いて、第1学習モデル40と第2学習モデル50を強化学習し、学習モデル40、50を更新する(ステップS7)。
まず、蓄積された走行データを基に、第1の時刻の走行状態stと、学習が中途の状態における第1学習モデル40によって推論された操作の内容atを入力として、現状の第1学習モデル40の出力となる操作の内容atを適切に評価できるように、第2学習モデル50を学習する。
When sufficient driving data is accumulated in the learning
First, based on the accumulated driving data, the driving state s t at the first time and the contents of the operation at inferred by the
強化学習部33は、第1の時刻の走行状態stと操作の内容atを、第2学習モデル50の入力層51の、各走行状態s及び操作の内容aに対応する入力ノードに入力する。
中間層52の各ノードにおいては、前段の層(例えば、第1中間層52aの場合は入力層51、第2中間層52bの場合は第1中間層52a)の各ノードから、この前段の層の各ノードに格納された値と、前段の層の各ノードから当該中間層52のノードへの重みを基にした演算がなされて、当該中間層52のノード内に演算結果が格納される。
出力層53においても、中間層52の各々と同様な演算が行われ、出力層53に備えられた出力ノードに演算結果、すなわち行動価値関数Q(st、at)の値が格納される。
The
At each node of the
In the
強化学習部33は、既に説明した数式3を損失関数として、これをできるだけ小さくするように、第2学習モデル50を学習させる。すなわち、第2学習モデル50は、誤差逆伝搬法、確率的勾配降下法等により、数式3として示された損失関数が減る方向に重みやバイアスの値等の、ニューラルネットワークを構成する各パラメータの値を調整することによって学習される。
The
この時点において学習用データ記憶部34に蓄積されているデータによる、第2学習モデル50の更新が終了すると、第1学習モデル40を学習させる。
強化学習部33は、「-Q(st、μ(st))」の値を損失関数とし、これをできるだけ小さくする操作の内容atを出力するように、第1学習モデル40を学習させる。すなわち、第1学習モデル40は、誤差逆伝搬法、確率的勾配降下法等により、この損失関数が減る方向に重みやバイアスの値等の、ニューラルネットワークを構成する各パラメータの値を調整することによって学習される。
After updating the
The
第1学習モデル40と第2学習モデル50の更新が終了すると、これら第1学習モデル40と第2学習モデル50の学習が終了したか否かを判定する(ステップS9)。
学習が終了していないと判定された場合には(ステップS9のNo)、ステップS5へ遷移する。すなわち、制御装置10は走行データを更に収集し、これを用いた第1学習モデル40と第2学習モデル50の更新を繰り返す。
学習が終了したと判定された場合には(ステップS9のYes)、学習処理を終了する(ステップS11)。
When the updating of the
If it is determined that learning has not ended (No in step S9), the process proceeds to step S5. That is, the
If it is determined that the learning has ended (Yes in step S9), the learning process ends (step S11).
次に、図7を用いて、実際に車両2の性能測定に際して操作の内容を推論する場合での、すなわち、第1学習モデル40の強化学習が終了した後において、車両2を走行制御する際の動作について説明する。
Next, with reference to FIG. 7, when inferring the details of the operation when actually measuring the performance of the
車両2が走行を開始すると(ステップS51)、走行環境が初期設定され、この時点での走行状態sを初期状態として観測する(ステップS53)。
走行状態sの観測は、次のように行われる。
走行状態取得部22が、現在時点における、車両2の走行状態sを取得する。
走行状態取得部22は、車両2に備えられた様々な図示されない計測器やドライブロボット4内に記録された操作実績等から、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速を取得する。
また、走行状態取得部22は、指令車速記憶部21から、指令車速を取得する。
走行状態取得部22は、これらの取得した走行状態sを、学習部30へ送信する。
When the
Observation of the running state s is performed as follows.
The running
The driving
Also, the running
The running
操作内容推論部31は、走行状態取得部22から、走行状態sを受信する。操作内容推論部31は、走行状態sを受信した時刻を第1の時刻として、受信した走行状態sを基に、学習済みの第1学習モデル40により、第1の時刻より後の車両2の操作の内容を推論する(ステップS55)。
より詳細には、操作内容推論部31は、受信した走行状態sの各々を、学習済みの第1学習モデル40の入力層41の、対応する入力ノードに入力すると、入力層41から中間層42を介して出力層43へと順に辿りながら、重みやバイアスの値等を用いて重み付け和を演算する処理を実行する。最終的に出力層43の各出力ノードに、第1の時刻以降に実行すべき操作の内容aが格納される。
操作内容推論部31は、推論した操作の内容aを、車両操作制御部23へ送信する。
The operation
More specifically, when the operation
The operation
操作内容推論部31は、この、学習済みの第1学習モデル40が推論した操作の内容aを、ドライブロボット制御部20の車両操作制御部23へ送信する。
この操作の内容aに基づき、車両操作制御部23はステップ周期Tstepの間、ドライブロボット4を操作する。
そして、走行状態取得部22は、操作後の車両2の走行状態sを、ステップS53と同様な要領で、再度取得する(ステップS57)。
走行状態取得部22は、操作後の車両2の走行状態sを、学習部30へ送信する。
The operation
Based on this operation content a, the vehicle
Then, the running
The running
制御装置10は、車両2の走行が終了したか否かを判定する(ステップS59)。
走行が終了していないと判定された場合には(ステップS59のNo)、ステップS55へ遷移する。すなわち、制御装置10は、ステップS57で取得した走行状態sを基にした操作の内容aの推論と、更なる走行状態sの観測を繰り返す。
走行が終了したと判定された場合には(ステップS59のYes)、走行処理を終了する(ステップS61)。
The
If it is determined that the vehicle has not finished running (No in step S59), the process proceeds to step S55. That is, the
If it is determined that the vehicle has finished traveling (Yes in step S59), the traveling process is terminated (step S61).
次に、上記のドライブロボットの制御装置及び制御方法の効果について説明する。 Next, the effects of the drive robot control device and control method described above will be described.
本実施形態におけるドライブロボット(自動操縦ロボット)の制御装置10は、車両2に搭載されて車両2を走行させるドライブロボット4を、車両2が規定された指令車速に従って走行するように制御する、ドライブロボット4の制御装置10であって、車両2の走行状態sを取得する走行状態取得部22と、第1の時刻における走行状態stを基に、第1学習モデル40により、第1の時刻より後の車両2の操作の内容atを推論する操作内容推論部31と、操作の内容atに基づきドライブロボット4を制御する車両操作制御部23と、を備え、走行状態sは、車両2において検出された車速と、走行状態sが取得された時刻における指令車速を含み、第1学習モデル40は、操作の内容atに基づいたドライブロボット4の操作の後の、第1の時刻より後の第2の時刻における走行状態st+1に基づいて、燃費と排ガス性能のいずれか一方または双方がより高い操作の内容atであるほど大きな値となるように計算された報酬rt+1を基に、強化学習されている。
上記のような構成によれば、車両2の操作の内容atを推論する操作内容推論部31において、第1学習モデル40は、燃費と排ガス性能がより高い操作の内容atであるほど大きな値となるように計算された報酬rt+1を基に、強化学習されている。したがって、操作内容推論部31は、燃費や排ガス性能が考慮された操作の内容atを推論することができるため、ドライブロボット4に、燃費や排ガス性能を考慮して車両2を操作させることができる。
また、第1学習モデル40が操作の内容を推論するに際し基づく、車両2の走行状態stは、走行状態stが取得された時刻における指令車速を含むため、指令車速に高精度で追従するような操作の内容atを推論可能である。
したがって、指令車速に高い精度で追従させつつ、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置10を提供可能である。
A
According to the configuration described above, in the operation content inference unit 31 that infers the operation content at of the
In addition, since the running state st of the
Therefore, it is possible to provide the
強化学習以外の機械学習、例えば教師あり学習等において、燃費や排ガス性能を考慮してドライブロボット4が車両2を制御するような学習モデルを生成する際には、実際に車両2を、燃費や排ガス性能が良好となるように走行させて、燃費や排ガス性能が良好な走行データを取得し、これを教師データとして学習させることが考えられる。このように、例えば教師あり学習においては、学習する対象はあくまで与えられた教師データであり、燃費や排ガス性能は、この走行データの学習に付随して、間接的に改善される。すなわち、例えば教師あり学習においては、燃費や排ガス性能の向上を直接的な目標として学習することができない。このため、与えられた教師データ以上に燃費や排ガス性能が良好に改善されるような操作の内容が実際にはあったとしても、これを推論することが容易ではない。
これに対し、本実施形態においては、操作の内容aに関して燃費や排ガス性能が良好か否かの程度を明確な値として有する報酬rを基に、燃費や排ガス性能が良好な操作の内容aを推論するように、第1学習モデル40が強化学習されている。すなわち、本実施形態においては、第1学習モデル40は強化学習により学習されているため、燃費や排ガス性能を向上させることを明示的な目標として、第1学習モデル40が操作の内容aを推論することができる。このため、教師あり学習等の他の機械学習を適用した形態と比較しても、より良好な燃費や排ガス性能となるような操作の内容aを推論し得る。
In machine learning other than reinforcement learning, such as supervised learning, when generating a learning model in which the
On the other hand, in the present embodiment, based on the remuneration r having a clear value indicating whether or not the fuel consumption and exhaust gas performance are good for the operation content a, the operation content a with good fuel economy and exhaust gas performance is determined. As inferred, the
また、操作の対象は、アクセルペダル2cとブレーキペダル2dを含み、走行状態sは、アクセルペダル2cとブレーキペダル2dの検出量を含む。
上記のような構成によれば、車両2の操作において、燃費や排ガス性能と密接に関連するアクセルペダル2cとブレーキペダル2dの検出量を走行状態sに含めているため、適切に報酬rを計算し、結果として、第1学習モデル40によって適切に操作の内容aを推論することができる。したがって、より効果的に、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
Further, the objects to be operated include the
According to the configuration as described above, in the operation of the
また、アクセルペダル2c及びブレーキペダル2dの検出量の変化が小さいほど値が大きくなるように設定された第1要素rAP、rBPが計算され、第1要素rAP、rBPを基に報酬rt+1が計算されている。
上記のような構成によれば、燃費や排ガス性能が良好であると考えられる、アクセルペダル2c及びブレーキペダル2dの検出量の変化が小さい場合に、第1要素rAP、rBPの値が小さくなるように計算され、これを基に報酬rt+1が計算されるため、適切に報酬rt+1の値を設定することができる。したがって、より効果的に、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
Also, the first elements r AP and r BP are calculated so that the smaller the change in the detected amount of the
According to the configuration described above, when changes in the detected amounts of the
また、時間軸と、アクセルペダル2cまたはブレーキペダル2dの検出量を軸とする座標系上で、検出量を関数として表現した際に、関数の一階微分または二階微分の値を基に、第1要素rAP、rBPが計算されている。
上記のような構成によれば、アクセルペダル2cまたはブレーキペダル2dの検出量の変化量は、これら検出量を表現した関数の一階微分または二階微分の値に密接に関連する。すなわち、検出量を表現した関数の一階微分または二階微分の値を基に第1要素rAP、rBPを計算することにより、適切に報酬rt+1の値を設定することができる。したがって、より効果的に、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
In addition, when the detected amount is expressed as a function on a coordinate system having the time axis and the detected amount of the
According to the configuration described above, the amount of change in the detected amount of the
また、関数の一階微分または二階微分の最大値の絶対値が所定の閾値以下であれば、第1要素rAP、rBPが正の値となるように、かつ、最大値の絶対値が所定の閾値よりも大きければ、第1要素rAP、rBPが負の値となるように、第1要素rAP、rBPが計算されている。
上記のような構成によれば、関数の一階微分または二階微分の最大値の絶対値が所定の閾値以下であれば、アクセルペダル2cまたはブレーキペダル2dの検出量の変化量が小さく燃費や排ガス性能が良好であると考えられる。この場合には、第1要素rAP、rBPが正の値となるように計算される。また、関数の一階微分または二階微分の最大値の絶対値が所定の閾値以上であれば、アクセルペダル2cまたはブレーキペダル2dの検出量の変化量が大きく燃費や排ガス性能が良好ではないと考えられる。この場合には、第1要素rAP、rBPが負の値となるように計算される。
このように、燃費や排ガス性能が良好である場合に値が大きくなるように第1要素rAP、rBPが計算され、これを基に報酬rt+1が計算されるため、適切に報酬rt+1の値を設定することができる。したがって、より効果的に、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
Further, if the absolute value of the maximum value of the first-order derivative or the second-order derivative of the function is equal to or less than a predetermined threshold, the first elements r AP and r BP are positive values, and the absolute value of the maximum value is The first elements r AP and r BP are calculated such that the first elements r AP and r BP are negative values if they are larger than a predetermined threshold.
According to the above configuration, if the absolute value of the maximum value of the first-order differential or second-order differential of the function is equal to or less than the predetermined threshold value, the amount of change in the detected amount of the
In this way, the first elements r AP and r BP are calculated so that the values are large when the fuel efficiency and exhaust gas performance are good, and the reward r t+1 is calculated based on this, so the reward r t +1 is appropriately calculated. can be set. Therefore, it is possible to provide a control device for the
また、操作の内容aに基づいたドライブロボット4の操作の後の、第2の時刻における検出車速と指令車速との差が小さいほど値が大きくなるように設定された第2要素rsが計算され、第2要素rsを基に報酬rt+1が計算されている。
上記のような構成によれば、検出車速と指令車速との差が小さいほど値が大きくなるように第2要素rsが計算されるため、指令車速への追従性が高いほど、第2要素rsが大きな値を有し得る。報酬rt+1は、このような第2要素rsを基に計算されているため、指令車速に高い精度で追従させるように車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
Also, a second element rs is calculated, which is set so that the smaller the difference between the detected vehicle speed and the commanded vehicle speed at the second time after the operation of the
According to the above configuration, the second element rs is calculated such that the smaller the difference between the detected vehicle speed and the commanded vehicle speed, the larger the value of the second element rs. r s can have a large value. Since the reward r t+1 is calculated based on such a second element r s , it is possible to provide a control device for the
また、操作内容推論部31は、第1の時刻以降の時間範囲内の、複数の時刻における操作の内容aを推論する。
上記のような構成によれば、一度の推論で複数の操作の内容を推論するため、操作間隔を推論に要する時間よりも短くすることができる。このため、緻密な操作が可能となる。
また、推論により、実際には使用されないほど将来の操作の内容をも推論することができる。この場合においては、将来を見越した操作の内容aを推論することができるため、操作の内容aの精度が向上し、より効果的に、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
Further, the operation
According to the configuration as described above, since the contents of a plurality of operations are inferred in one inference, the operation interval can be made shorter than the time required for the inference. For this reason, precise operation becomes possible.
Inference can also infer the content of future operations to the extent that they are not actually used. In this case, since it is possible to infer the content a of the operation in anticipation of the future, the accuracy of the content a of the operation is improved, and the
また、第1学習モデル40は、報酬rt+1を基に操作の内容atを評価して操作の内容atの評価値Q(st、at)を計算する第2学習モデル50によって計算された、評価値Q(st、at)を基に、評価値Q(st、at)がより高い操作の内容aを推論するように学習されている。
上記のような構成によれば、報酬rt+1を基にした評価値Q(st、at)の計算を、関数近似器としての第2学習モデル50によって計算している。このため、評価値Q(st、at)の計算が容易となる。
In addition, the
According to the above configuration, the evaluation value Q(s t , at ) based on the reward r t +1 is calculated by the
また、第2学習モデル50は、第1学習モデル40により出力された操作の内容atを入力とし、報酬rt+1が大きいほど高い評価値Q(st、at)を出力するように学習され、これら第1学習モデル40と第2学習モデル50の学習が繰り返されることにより、第1学習モデル40と第2学習モデル50は強化学習されている。
上記のような構成によれば、第1の時刻の走行状態stと、学習が中途の状態における第1学習モデル40によって推論された操作の内容atを入力として、現状の第1学習モデル40の出力となる操作の内容atを適切に評価できるように、第2学習モデル50を学習し、この学習後の第2学習モデル50を用いて、これが出力する評価値Q(st、at)が大きくなるように、第1学習モデル40を学習することを繰り返して、第1学習モデル40及び第2学習モデル50を学習させることができる。したがって、第1学習モデル40及び第2学習モデル50を効果的に学習させることができる。
Further, the
According to the configuration as described above, the current
[実施形態の変形例]
次に、図8を用いて、上記実施形態として示したドライブロボットの制御装置及び制御方法の変形例を説明する。図8は、本変形例におけるドライブロボットの制御装置のブロック図である。本変形例におけるドライブロボット4の制御装置60は、上記実施形態のドライブロボット4の制御装置10とは、ドライブロボット制御部61が、学習部30の、学習が終了した時点における、操作内容推論部31及び第1学習モデル40と同じ構成の、操作内容推論部31A及び第1学習モデル40Aを備えている点が異なっている。
[Modification of Embodiment]
Next, with reference to FIG. 8, a modified example of the control device and control method for the drive robot shown as the above embodiment will be described. FIG. 8 is a block diagram of the control device for the drive robot in this modified example. The
本変形例においては、第1学習モデル40及び第2学習モデル50の学習時においては、上記実施形態と同様な構成となっている。これら第1学習モデル40及び第2学習モデル50の学習が終了した後に、操作内容推論部31及び第1学習モデル40が、操作内容推論部31A及び第1学習モデル40Aとしてドライブロボット制御部61の中に複製されている。
実際に車両2の性能測定に際して操作の内容aを推論する場合においては、ドライブロボット制御部61内の操作内容推論部31Aが、第1学習モデル40Aを使用して操作の内容aを推論する。
In this modified example, the configuration during learning of the
When actually inferring the operation content a when measuring the performance of the
本変形例が、既に説明した実施形態と同様な効果を奏することは言うまでもない。
特に、本変形例の構成においては、実際に車両2の性能測定に際して操作の内容aを推論する場合における処理が、ドライブロボット制御部61の内部だけで完結されており、ドライブロボット制御部61が学習部30と通信する必要がない。
It goes without saying that this modification has the same effect as the embodiment already described.
In particular, in the configuration of this modified example, the processing for inferring the operation content a when actually measuring the performance of the
なお、本発明のドライブロボットの制御装置及び制御方法は、図面を参照して説明した上述の実施形態及び変形例に限定されるものではなく、その技術的範囲において他の様々な変形例が考えられる。 It should be noted that the drive robot control device and control method of the present invention are not limited to the above-described embodiments and modifications described with reference to the drawings, and other various modifications can be conceived within the technical scope thereof. be done.
例えば、上記実施形態においては、報酬には、燃費と排ガス性能の双方がより高い操作の内容であるほど大きな値となるように計算されていたが、これに限られず、燃費と排ガス性能のいずれか一方がより高い操作の内容であるほど大きな値となるように計算されていてもよい。
例えば、燃費の値を測定または計算し、燃費の性能が高いほど値が大きくなるように設定された第3要素を計算し、これを基に、燃費が良い操作の内容であるほど大きな値となるように、報酬を計算するようにしてもよい。これにより、燃費のみが報酬に反映され得る。
あるいは、例えば、排ガス性能の値を測定または計算し、排ガス性能が高いほど値が大きくなるように設定された第4要素を計算し、これを基に、排ガス性能が良い操作の内容であるほど大きな値となるように、報酬を計算するようにしてもよい。これにより、排ガス性能のみが報酬に反映され得る。排ガス性能を燃費とは独立して報酬に反映することにより、例えば、自動車の排気経路に設けられる三元触媒コンバータ等において、排ガス中の有害物質の除去性能を評価する場合等に適用可能である。
これら第3及び第4の要素を共に報酬に反映させることによって、燃費と排ガス性能を共に、強化学習に影響し得るようにしてもよいのは、言うまでもない。
For example, in the above embodiment, the reward is calculated so that the higher the fuel efficiency and exhaust gas performance, the higher the value of the operation. Either one of them may be calculated so that the higher the content of the operation, the larger the value.
For example, the fuel consumption value is measured or calculated, and the third factor is calculated so that the value increases as the fuel consumption performance increases. You may make it calculate a reward so that it may become. This allows only fuel consumption to be reflected in the reward.
Alternatively, for example, the value of the exhaust gas performance is measured or calculated, the fourth element is calculated so that the value increases as the exhaust gas performance increases, and based on this, the better the exhaust gas performance, the better the operation You may make it calculate a reward so that it may become a big value. This allows only emissions performance to be reflected in rewards. By reflecting exhaust gas performance in remuneration independently of fuel consumption, it can be applied, for example, when evaluating the performance of removing harmful substances in exhaust gas in a three-way catalytic converter installed in the exhaust path of an automobile. .
It goes without saying that both the fuel efficiency and the exhaust gas performance may be affected by reinforcement learning by reflecting both of these third and fourth elements in the reward.
また、上記実施形態においては、第1学習モデル40及び第2学習モデル50を学習させる際には、実際に車両2を走行させて走行データを観測、取得するように説明したが、これに限られない。例えば、学習時においては、車両2の代わりにシミュレータを使用してもよい。
In the above embodiment, when the
また、上記実施形態においては、操作の対象はアクセルペダル2cとブレーキペダル2dであり、走行状態は、アクセルペダル2cとブレーキペダル2dの検出量を含むように構成されていたが、これに限られない。
In the above-described embodiment, the objects to be operated are the
また、上記実施形態において、報酬の計算に使用される第1要素rAP、rBPは、第2の時刻における走行状態st+1において、第1の時刻からのアクセルペダル2cやブレーキペダル2dの検出量の推移を取得し、時間軸と、アクセルペダル2cやブレーキペダル2dの検出量を軸とする座標系上で、検出量を関数として表現したうえで、この関数の二階微分または一階微分の値を基に、二階微分または一階微分の最大値の絶対値を計算し、これが所定の閾値以下であれば正の値とし、閾値よりも大きければ負の値とすることで計算したが、これに限られない。
第1要素は、例えば、第1の時刻と第2の時刻の時間間隔が十分に短い場合には、第1の時刻におけるアクセルペダルの開度と、第2の時刻におけるアクセルペダルの開度の2値を比較し、その差分が所定の値以上であれば、アクセルペダル2cやブレーキペダル2dの操作量が大きいと考え、小さい値となるように計算してもよい。
また、上記のように計算した二階微分に関し、第1の時刻と第2の時刻の間において、その値が、正負が所定の回数以上入れ替わるように変動した場合においては、小刻みなペダル操作が行われたとして第1要素の値を小さくするように計算してもよい。
また、アクセルペダル2cやブレーキペダル2dの変化量、すなわち二階微分または一階微分の最大値の絶対値に-1を乗算して負の値とし、これを第1要素としてもよい。この第1要素をできるだけ大きくするように計算することで、アクセルペダル2cやブレーキペダル2dの変化量が小さくなるような結果を取得し得る。
あるいは、上記全てを、報酬を計算する上での異なる要素として個別に計算し、報酬に反映することで、上記全ての要因が個別に報酬に影響するように、報酬を計算しても構わない。
Further, in the above-described embodiment, the first elements r AP and r BP used for calculating the reward are determined by the detection of the
The first element is, for example, when the time interval between the first time and the second time is sufficiently short, the opening degree of the accelerator pedal at the first time and the opening degree of the accelerator pedal at the second time. If the two values are compared and the difference is equal to or greater than a predetermined value, it may be considered that the operation amount of the
Further, regarding the second-order derivative calculated as described above, if the value changes so that the positive and negative values change more than a predetermined number of times between the first time and the second time, the pedal operation is performed in small increments. It may be calculated to reduce the value of the first element assuming that
Alternatively, the amount of change in the
Alternatively, the remuneration may be calculated so that all of the above factors individually affect the remuneration by calculating all of the above separately as different factors in calculating the remuneration and reflecting them in the remuneration. .
更には、時間軸と、アクセルペダル2cまたはブレーキペダル2dの検出量を軸とする座標系上で、検出量を関数として表現した際に、関数の積分量が小さいほど値が大きくなるように設定された積分要素が計算され、当該積分要素を基に報酬が計算されるようにしてもよい。積分量が小さい操作においては、アクセルペダル2cやブレーキペダル2dの全体的な操作量が少なく、燃費や排ガス性能が良好であると考えられる。すなわち、上記関数の積分量が小さいほど値が大きくなるように設定した積分要素を基に報酬を計算することで、効果的に、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
Furthermore, when the detected amount is expressed as a function on a coordinate system having axes of the time axis and the detected amount of the
また、学習モデル40、50の構成は、上記実施形態において説明したものに限られないのは、言うまでもない。例えば、学習モデル40、50において、中間層42、52の数を、3より小さい、または3より多い数とする等、多くの変形例が想定されるが、本発明の主旨を損なわない限りにおいて、どのような構成を備えていてもよい。
これは、学習モデル40、50の損失関数に関しても同様である。上記実施形態において、例えば第2学習モデル50の損失関数は、既に説明した数式3に示される構造としたが、これに代えて、次の数式4を第2学習モデル50の損失関数としてもよい。数式4は、損失関数の計算において、学習対象として現存する、学習中の現段階のネットワークを用いるのではなく、少し前の時点で固定された第1学習モデル40及び第2学習モデル50に対し、これをターゲットネットワークとして使用する場合の損失関数である。Qtargetは、ターゲットネットワークとしての第2学習モデル50における行動価値関数であり、μtargetは、ターゲットネットワークとしての第1学習モデル40における出力関数である。
Further, it goes without saying that the configurations of the
The same is true for the loss functions of the
また、上記実施形態においては、操作内容推論部31により推論された操作の内容aは、そのまま車両操作制御部23に送信されて、ドライブロボット4の制御に使用されたが、これに限られない。例えば、操作の内容aを過去または将来の一定の期間にわたって、横軸を時間軸として関数表現したうえで、ローパスフィルタを適用することで、近接する時刻における操作の内容aの変化をなだらかにすることにより、車両2を滑らかに操作することができる。
操作の内容aに対して、過去または将来の一定の期間にわたって移動平均を計算することによっても、同様な効果が期待できる。
あるいは、ドライブロボット制御部20は、フィードバック系の制御を行うフィードバック制御部を備え、操作の内容aは、フィードフォワード値としてフィードバック制御部で使用されてもよい。すなわち、フィードバック制御部により、例えばPID制御などのフィードバック系の制御系を実現し、操作内容推論部31により推論された操作の内容aを、当該制御系におけるフィードフォワード値として使用するように構成してもよい。この場合においては、車速追従性が向上する。
Further, in the above-described embodiment, the operation content a inferred by the operation
A similar effect can be expected by calculating a moving average over a certain period of time in the past or in the future for the contents of the operation a.
Alternatively, the drive
また、上記実施形態においては、学習前後における損失関数の差が一定の値以下となった場合に学習を終了したが、これに限られない。例えば、所定の回数だけ学習モデル40、50を更新したら学習を終了するようにしてもよい。あるいは、学習途中のモデル40を用いて車両2を実際に走行させ、その結果として燃費や排ガス性能等を実際に測定して、これを基に走行スコアを計算し、走行スコアが学習前後で一定以上増加しなくなった場合に学習を終了するようにしてもよい。
Further, in the above embodiment, learning is terminated when the difference between the loss functions before and after learning is equal to or less than a certain value, but the present invention is not limited to this. For example, learning may be terminated after the
また、上記実施形態においては、第1学習モデル40と第2学習モデル50は強化学習のみにより学習されていたが、部分的に教師あり学習を組み合わせてもよい。例えば、アクセルペダル2cとブレーキペダル2dを操作して何らかの走行を行った際に、その走行データを取得して、検出車速を指令車速に置き換えると、指令車速に完全に追従されたアクセルペダル2cとブレーキペダル2dの操作データを得ることができる。このように作成されたデータを教師データとして教師あり学習を併用することにより、強化学習における学習の方向性を定めて学習の進捗を促進するとともに、追従性がより高い操作の内容を学習、推論することができる。
Also, in the above embodiment, the
これ以外にも、本発明の主旨を逸脱しない限り、上記実施形態及び変形例で挙げた構成を取捨選択したり、他の構成に適宜変更したりすることが可能である。 In addition to this, it is possible to select the configurations mentioned in the above-described embodiment and modifications, or to change them to other configurations as appropriate without departing from the gist of the present invention.
1 試験装置
2 車両
2c アクセルペダル
2d ブレーキペダル
3 シャシーダイナモメータ
4 ドライブロボット(自動操縦ロボット)
10、60 制御装置
20、61 ドライブロボット制御部
21 指令車速記憶部
22 走行状態取得部
23 車両操作制御部
30 学習部
31、31A 操作内容推論部
32 報酬計算部
33 強化学習部
34 学習用データ記憶部
40、40A 第1学習モデル
50 第2学習モデル
Q 行動価値関数(評価値)
s 走行状態
s1 アクセルペダル検出量
s2 ブレーキペダル検出量
sN 指令車速
a 操作の内容
a1 アクセルペダル操作
a2 ブレーキペダル操作
1
10, 60
s Driving state s1 Accelerator pedal detection amount s2 Brake pedal detection amount sN Commanded vehicle speed a Contents of operation a1 Accelerator pedal operation a2 Brake pedal operation
Claims (10)
前記車両の走行状態を取得する走行状態取得部と、
第1の時刻における前記走行状態を基に、第1学習モデルにより、前記第1の時刻より後の前記車両の操作の内容を推論する操作内容推論部と、
前記操作の内容に基づき前記自動操縦ロボットを制御する車両操作制御部と、
を備え、
前記走行状態は、前記車両において検出された車速と、前記走行状態が取得された時刻における前記指令車速を含み、
前記第1学習モデルは、前記操作の内容に基づいた前記自動操縦ロボットの操作の後の、前記第1の時刻より後の第2の時刻における前記走行状態に基づいて、燃費と排ガス性能のいずれか一方または双方がより高い前記操作の内容であるほど大きな値となるように計算された報酬を基に、強化学習され、
前記第1学習モデルは、前記報酬を基に前記操作の内容を評価して前記操作の内容の評価値を計算する第2学習モデルによって計算された、前記評価値を基に、前記評価値がより高い前記操作の内容を推論するように学習されている、自動操縦ロボットの制御装置。 A control device for an autopilot robot that controls an autopilot robot that is mounted on a vehicle and drives the vehicle so that the vehicle travels according to a prescribed command vehicle speed,
a running state acquisition unit that acquires the running state of the vehicle;
an operation content inference unit that infers details of operation of the vehicle after the first time using a first learning model based on the running state at the first time;
a vehicle operation control unit that controls the autopilot robot based on the content of the operation;
with
The running state includes the vehicle speed detected in the vehicle and the command vehicle speed at the time when the running state was acquired,
The first learning model is based on the driving state at a second time after the first time after the operation of the autopilot robot based on the content of the operation, either fuel efficiency or exhaust gas performance. Reinforcement learning is performed based on the reward calculated so that the higher the content of the operation, the higher the value of either one or both ,
The first learning model evaluates the content of the operation based on the reward, and calculates the evaluation value of the content of the operation based on the evaluation value calculated by the second learning model. A controller for an autopilot robot that has been trained to infer higher said maneuver content .
これら前記第1学習モデルと前記第2学習モデルの学習が繰り返されることにより、前記第1学習モデルと前記第2学習モデルは強化学習されている、請求項1から8のいずれか一項に記載の自動操縦ロボットの制御装置。 The second learning model receives as input the content of the operation output by the first learning model, and is learned to output a higher evaluation value as the reward increases,
The first learning model and the second learning model are subjected to reinforcement learning by repeating the learning of the first learning model and the second learning model, according to any one of claims 1 to 8. autopilot robot controller.
前記車両の走行状態を取得し、前記走行状態は、前記車両において検出された車速と、前記走行状態が取得された時刻における前記指令車速を含み、
第1の時刻における前記走行状態を基に、第1学習モデルにより、前記第1の時刻より後の前記車両の操作の内容を推論し、前記第1学習モデルは、前記操作の内容に基づいた前記自動操縦ロボットの操作の後の、前記第1の時刻より後の第2の時刻における前記走行状態に基づいて、燃費と排ガス性能のいずれか一方または双方がより高い前記操作の内容であるほど大きな値となるように計算された報酬を基に、強化学習され、前記第1学習モデルは、前記報酬を基に前記操作の内容を評価して前記操作の内容の評価値を計算する第2学習モデルによって計算された、前記評価値を基に、前記評価値がより高い前記操作の内容を推論するように学習されており、
前記操作の内容に基づき前記自動操縦ロボットを制御する、自動操縦ロボットの制御方法。
An autopilot robot control method for controlling an autopilot robot mounted on a vehicle to drive the vehicle so that the vehicle travels according to a prescribed command vehicle speed, comprising:
obtaining a running state of the vehicle, the running state including the vehicle speed detected in the vehicle and the command vehicle speed at the time when the running state was acquired;
Based on the running state at the first time, a first learning model infers the content of the operation of the vehicle after the first time, and the first learning model is based on the content of the operation. Based on the running state at a second time after the first time after the operation of the autopilot robot, either one or both of the fuel efficiency and the exhaust gas performance are higher the higher the content of the operation. Reinforcement learning is performed based on a reward calculated to have a large value, and the first learning model evaluates the content of the operation based on the reward and calculates an evaluation value of the content of the operation. Based on the evaluation value calculated by the learning model, it is learned to infer the content of the operation with the higher evaluation value,
A control method for an autopilot robot, wherein the autopilot robot is controlled based on the content of the operation.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018188766A JP7110891B2 (en) | 2018-10-04 | 2018-10-04 | Autopilot robot control device and control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018188766A JP7110891B2 (en) | 2018-10-04 | 2018-10-04 | Autopilot robot control device and control method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020056737A JP2020056737A (en) | 2020-04-09 |
JP7110891B2 true JP7110891B2 (en) | 2022-08-02 |
Family
ID=70107078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018188766A Active JP7110891B2 (en) | 2018-10-04 | 2018-10-04 | Autopilot robot control device and control method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7110891B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7365967B2 (en) * | 2020-05-27 | 2023-10-20 | 株式会社 日立産業制御ソリューションズ | Action selection system and action selection method |
JP6988969B1 (en) * | 2020-09-15 | 2022-01-05 | 株式会社明電舎 | Learning system and learning method of operation inference learning model that controls autopilot robot |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014115168A (en) | 2012-12-07 | 2014-06-26 | Aisin Aw Co Ltd | Vehicular travel simulation device, driver model construction method and driver model construction program |
JP2016156687A (en) | 2015-02-24 | 2016-09-01 | 株式会社明電舎 | Vehicle speed control device |
JP2017111116A (en) | 2015-12-10 | 2017-06-22 | 株式会社堀場製作所 | Vehicle speed pattern display device, program used for the device, traveling test method, and automatic driving device |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2246686A1 (en) * | 2009-05-01 | 2010-11-03 | Froude Hofmann Limited | Vehicle test apparatus and method |
-
2018
- 2018-10-04 JP JP2018188766A patent/JP7110891B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014115168A (en) | 2012-12-07 | 2014-06-26 | Aisin Aw Co Ltd | Vehicular travel simulation device, driver model construction method and driver model construction program |
JP2016156687A (en) | 2015-02-24 | 2016-09-01 | 株式会社明電舎 | Vehicle speed control device |
JP2017111116A (en) | 2015-12-10 | 2017-06-22 | 株式会社堀場製作所 | Vehicle speed pattern display device, program used for the device, traveling test method, and automatic driving device |
Non-Patent Citations (1)
Title |
---|
河本 誠 他5名,強化学習を用いたアクセル・ブレーキペダル操作のためのドライバモデルの有効性検証 HILSを用いた車速追従性と人間らしい操作特性の評価,日本機械学会東海支部第62期総会講演会講演論文集,No.133-1,日本,2013年,p.39-40,インターネット<URL : https://www.jstage.jst.go.jp/article/jsmetokai/2013.62/0/2013.62_39/_pdf/-char/ja> |
Also Published As
Publication number | Publication date |
---|---|
JP2020056737A (en) | 2020-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220143823A1 (en) | Learning System And Learning Method For Operation Inference Learning Model For Controlling Automatic Driving Robot | |
CN110119844B (en) | Robot motion decision method, system and device introducing emotion regulation and control mechanism | |
KR102313002B1 (en) | Vehicle speed control device and vehicle speed control method | |
WO2020099672A1 (en) | Controlling agents using amortized q learning | |
JP7110891B2 (en) | Autopilot robot control device and control method | |
CN111433689B (en) | Generation of control systems for target systems | |
JP2010086405A (en) | System for adapting control parameter | |
JP6908144B1 (en) | Control device and control method for autopilot robot | |
JP2021051640A (en) | Model generation apparatus and model generation method | |
JP2021051638A (en) | Model generation apparatus, data generation apparatus, model generation method, and data generation method | |
JP2021051637A (en) | Model generation apparatus, data generation apparatus, model generation method, and data generation method | |
CN114278727B (en) | Vehicle automatic gear shifting control method, system, medium and equipment under limit working condition | |
US11718295B2 (en) | Automatic driving robot control device and control method | |
WO2022059484A1 (en) | Learning system and learning method for operation inference learning model for controlling automated driving robot | |
JP2021143882A (en) | Learning system and learning method for operation inference learning model that controls automatically manipulated robot | |
JP2024001584A (en) | Control unit and control method for automatic steering robot | |
JP2021128510A (en) | Learning system and learning method for operation deduction learning model for controlling automatic operation robot | |
Zhao et al. | Inverse Reinforcement Learning and Gaussian Process Regression-based Real-Time Framework for Personalized Adaptive Cruise Control | |
US20240075943A1 (en) | Method and system for controlling a vehicle using machine learning | |
WO2022264929A1 (en) | Control device and control method | |
US20240203284A1 (en) | Computer-implemented tools and techniques using virtual reality environments for industrial equipment training | |
US20240256884A1 (en) | Generating environment models using in-context adaptation and exploration | |
JP2023107486A (en) | inspection controller | |
JP2023071063A (en) | Model learning system and model learning device | |
WO2022049672A1 (en) | Learning device, learning method, control system, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210203 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220704 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7110891 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |