JP7110891B2 - Autopilot robot control device and control method - Google Patents

Autopilot robot control device and control method Download PDF

Info

Publication number
JP7110891B2
JP7110891B2 JP2018188766A JP2018188766A JP7110891B2 JP 7110891 B2 JP7110891 B2 JP 7110891B2 JP 2018188766 A JP2018188766 A JP 2018188766A JP 2018188766 A JP2018188766 A JP 2018188766A JP 7110891 B2 JP7110891 B2 JP 7110891B2
Authority
JP
Japan
Prior art keywords
vehicle
value
learning model
learning
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018188766A
Other languages
Japanese (ja)
Other versions
JP2020056737A (en
Inventor
健人 吉田
寛修 深井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Original Assignee
Meidensha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp filed Critical Meidensha Corp
Priority to JP2018188766A priority Critical patent/JP7110891B2/en
Publication of JP2020056737A publication Critical patent/JP2020056737A/en
Application granted granted Critical
Publication of JP7110891B2 publication Critical patent/JP7110891B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Description

本発明は、車両を走行させる自動操縦ロボットの制御装置及び制御方法に関する。 The present invention relates to a control device and control method for an autopilot robot that drives a vehicle.

一般に、普通自動車などの車両を製造、販売する際には、国や地域により規定された、特定の走行パターン(モード)により車両を走行させた際の燃費や排出ガスを測定し、これを表示する必要がある。
モードは、例えば、走行開始から経過した時間と、その時に到達すべき車速との関係として、グラフにより表わすことが可能である。この到達すべき車速は、車両へ与えられる達成すべき速度に関する指令という観点で、指令車速と呼ばれることがある。
上記のような、燃費や排出ガスに関する試験は、シャシーダイナモメータ上に車両を載置し、車両に搭載された自動操縦ロボット、所謂ドライブロボット(登録商標)により、モードに従って車両を運転させることにより行われる。
Generally, when manufacturing and selling a vehicle such as a standard-sized car, the fuel consumption and exhaust gas are measured and displayed when the vehicle is driven in a specific driving pattern (mode) stipulated by the country or region. There is a need to.
The mode can be represented by a graph, for example, as the relationship between the elapsed time from the start of travel and the vehicle speed to be reached at that time. This vehicle speed to be reached is sometimes referred to as command vehicle speed from the viewpoint of a command given to the vehicle regarding the speed to be achieved.
Tests related to fuel consumption and exhaust gas, such as those described above, are performed by placing the vehicle on the chassis dynamometer and driving the vehicle according to the mode by an autopilot robot mounted on the vehicle, the so-called Drive Robot (registered trademark). done.

指令車速には、許容誤差範囲が規定されている。車速が許容誤差範囲を逸脱すると、その試験は無効となるため、自動運転装置には、指令車速への高い追従性が求められる。
これに対し、特許文献1には、車速追従性を高め、事前に行う設定を容易にすることを目的とした、車両速度制御装置が開示されている。
特許文献1の車両速度制御装置は、例えばPID制御則等の、既知のフィードバック制御則に基づいている。
A permissible error range is defined for the command vehicle speed. If the vehicle speed deviates from the allowable error range, the test becomes invalid, so the automatic driving system is required to have high followability to the commanded vehicle speed.
On the other hand, Patent Literature 1 discloses a vehicle speed control device for the purpose of improving vehicle speed followability and facilitating setting in advance.
The vehicle speed control device of Patent Document 1 is based on a known feedback control law, for example a PID control law.

特開2016-156687号公報JP 2016-156687 A

上記のように、車両の試験は、燃費や排出ガスの測定を目的の一つとして行われる。
特許文献1のような、フィードバック制御に基づく指令車速への追従制御においては、指令車速に追従させつつ、燃費や排ガス性能をも同時に考慮した車両の操作、例えばアクセルペダルやブレーキペダルの操作量を計算することは、容易ではない。すなわち、燃費や排ガス性能を適切に考慮できないために、指令車速に追従させようとするあまり、例えばアクセルペダルやブレーキペダルを大きく操作したり、小刻みな操作を繰り返したりすることがある。この場合には、車両が備える本来の燃費や排ガス性能よりも、悪い性能が測定される可能性がある。
As described above, one of the purposes of vehicle testing is to measure fuel consumption and emissions.
In the follow-up control to the commanded vehicle speed based on the feedback control as in Patent Document 1, the operation of the vehicle, for example, the amount of operation of the accelerator pedal and the brake pedal, for example, is controlled while following the commanded vehicle speed while also considering the fuel consumption and exhaust gas performance. Calculating is not easy. That is, since fuel consumption and exhaust gas performance cannot be properly considered, for example, the accelerator pedal or the brake pedal may be greatly operated or repeatedly operated in small steps in an attempt to follow the commanded vehicle speed. In this case, there is a possibility that the measured performance is worse than the original fuel efficiency and exhaust gas performance of the vehicle.

本発明が解決しようとする課題は、指令車速に高い精度で追従させつつ、燃費や排ガス性能を考慮して車両を操作可能な、自動操縦ロボット(ドライブロボット)の制御装置及び制御方法を提供することである。 The problem to be solved by the present invention is to provide a control device and a control method for an autopilot robot (drive robot) that can operate a vehicle in consideration of fuel consumption and exhaust gas performance while following a commanded vehicle speed with high accuracy. That is.

本発明は、上記課題を解決するため、以下の手段を採用する。すなわち、本発明は、車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御装置であって、前記車両の走行状態を取得する走行状態取得部と、第1の時刻における前記走行状態を基に、第1学習モデルにより、前記第1の時刻より後の前記車両の操作の内容を推論する操作内容推論部と、前記操作の内容に基づき前記自動操縦ロボットを制御する車両操作制御部と、を備え、前記走行状態は、前記車両において検出された車速と、前記走行状態が取得された時刻における前記指令車速を含み、前記第1学習モデルは、前記操作の内容に基づいた前記自動操縦ロボットの操作の後の、前記第1の時刻より後の第2の時刻における前記走行状態に基づいて、燃費と排ガス性能のいずれか一方または双方がより高い前記操作の内容であるほど大きな値となるように計算された報酬を基に、強化学習されている、自動操縦ロボットの制御装置を提供する。 In order to solve the above problems, the present invention employs the following means. That is, the present invention is a control device for an autopilot robot that controls an autopilot robot that is mounted on a vehicle and causes the vehicle to travel in accordance with a prescribed command vehicle speed, comprising: A driving state acquisition unit that acquires a driving state, and an operation content inference unit that infers details of operation of the vehicle after the first time using a first learning model based on the driving state at the first time. and a vehicle operation control unit that controls the autopilot robot based on the content of the operation, wherein the running state is the vehicle speed detected in the vehicle and the command vehicle speed at the time when the running state is acquired. wherein the first learning model calculates fuel consumption and exhaust gas based on the running state at a second time after the first time after the operation of the autopilot robot based on the content of the operation Provided is a control device for an autopilot robot, in which reinforcement learning is performed based on a reward calculated so that the higher one or both of the performances is, the larger the value of the operation is.

また、本発明は、車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御方法であって、前記車両の走行状態を取得し、前記走行状態は、前記車両において検出された車速と、前記走行状態が取得された時刻における前記指令車速を含み、第1の時刻から、当該第1の時刻より後の前記車両の操作の内容を推論する第1学習モデルであって、前記操作の内容に基づいた前記自動操縦ロボットの操作の後の、前記第1の時刻より後の第2の時刻における前記走行状態に基づいて、燃費と排ガス性能のいずれか一方または双方がより高い前記操作の内容であるほど大きな値となるように報酬を計算し、前記報酬を基に強化学習された前記第1学習モデルにより、前記第1の時刻における前記走行状態を基に、前記車両の操作の内容を推論し、前記操作の内容に基づき前記自動操縦ロボットを制御する、自動操縦ロボットの制御方法を提供する。 The present invention also provides a control method for an autopilot robot that controls an autopilot robot that is mounted on a vehicle and causes the vehicle to travel in accordance with a prescribed command vehicle speed, the method comprising: A running state is acquired, and the running state includes the vehicle speed detected in the vehicle and the command vehicle speed at the time when the running state is acquired, and the running state is from a first time to the time after the first time. A first learning model for inferring details of operation of a vehicle, wherein the driving state at a second time after the first time after the operation of the autopilot robot based on the details of the operation. Based on this, a reward is calculated so that the higher the content of the operation is, the higher the fuel efficiency and/or the exhaust gas performance, the larger the value, and the first learning model that has undergone reinforcement learning based on the reward, A control method for an autopilot robot is provided, which infers details of an operation of the vehicle based on the running state at the first time, and controls the autopilot robot based on the details of the operation.

本発明によれば、指令車速に高い精度で追従させつつ、燃費や排ガス性能を考慮して車両を操作可能な、自動操縦ロボット(ドライブロボット)の制御装置及び制御方法を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the control apparatus and control method of an autopilot robot (drive robot) which can operate a vehicle in consideration of a fuel consumption and exhaust gas performance can be provided, following command vehicle speed with high precision.

本発明の実施形態における、自動操縦ロボット(ドライブロボット)を用いた試験環境の説明図である。FIG. 4 is an explanatory diagram of a test environment using an autopilot robot (drive robot) in the embodiment of the present invention; 上記実施形態における自動操縦ロボットの制御装置のブロック図である。FIG. 3 is a block diagram of a control device for the autopilot robot in the embodiment; 上記制御装置に設けられた第1学習モデルのブロック図である。It is a block diagram of the 1st learning model provided in the said control apparatus. 上記第1学習モデルの強化学習に用いられる、第2学習モデルのブロック図である。It is a block diagram of the 2nd learning model used for reinforcement learning of the 1st learning model. 上記自動操縦ロボットを制御する制御方法における、学習時のフローチャートである。4 is a flow chart during learning in the control method for controlling the autopilot robot. 上記自動操縦ロボットの制御方法の、学習時における走行データ収集ステップの、詳細なフローチャートである。4 is a detailed flowchart of a traveling data collection step during learning in the control method for the autopilot robot. 上記自動操縦ロボットの制御方法における、性能測定のために車両を走行制御させる際のフローチャートである。4 is a flow chart when the vehicle is controlled for performance measurement in the control method of the autopilot robot. 上記実施形態の変形例における自動操縦ロボットの制御装置のブロック図である。FIG. 11 is a block diagram of a control device for an autopilot robot in a modified example of the above embodiment;

以下、本発明の実施形態について図面を参照して詳細に説明する。
本実施形態における自動操縦ロボットの制御装置は、車両に搭載されて車両を走行させる自動操縦ロボットを、車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御装置であって、車両の走行状態を取得する走行状態取得部と、第1の時刻における走行状態を基に、第1学習モデルにより、第1の時刻より後の車両の操作の内容を推論する操作内容推論部と、操作の内容に基づき自動操縦ロボットを制御する車両操作制御部と、を備え、走行状態は、車両において検出された車速と、走行状態が取得された時刻における指令車速を含み、第1学習モデルは、操作の内容に基づいた自動操縦ロボットの操作の後の、第1の時刻より後の第2の時刻における走行状態に基づいて、燃費と排ガス性能のいずれか一方または双方がより高い操作の内容であるほど大きな値となるように計算された報酬を基に、強化学習されている。
本実施形態においては、自動操縦ロボットとしては、ドライブロボット(登録商標)を用いているため、以下、自動操縦ロボットをドライブロボットと記載する。
BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
The control device for an autopilot robot according to the present embodiment is a control device for an autopilot robot that controls an autopilot robot that is mounted on a vehicle and causes the vehicle to travel in accordance with a prescribed command vehicle speed. a driving state acquisition unit that acquires the driving state of the vehicle; and an operation content inference unit that infers the content of the operation of the vehicle after the first time using a first learning model based on the driving state at the first time. and a vehicle operation control unit that controls the autopilot robot based on the content of the operation. After the operation of the autopilot robot based on the content of the operation, the model is based on the driving state at the second time after the first time. Reinforcement learning is performed based on a reward that is calculated so that the value increases as the content of the content increases.
In this embodiment, the drive robot (registered trademark) is used as the autopilot robot, and hence the autopilot robot is hereinafter referred to as the drive robot.

図1は、実施形態におけるドライブロボットを用いた試験環境の説明図である。試験装置1は、車両2、シャシーダイナモメータ3、及びドライブロボット4を備えている。
車両2は、床面上に設けられている。シャシーダイナモメータ3は、床面の下方に設けられている。車両2は、車両2の駆動輪2aがシャシーダイナモメータ3の上に載置されるように、位置づけられている。車両2が走行し駆動輪2aが回転する際には、シャシーダイナモメータ3が反対の方向に回転する。
ドライブロボット4は、車両2の運転席2bに搭載されて、車両2を走行させる。ドライブロボット4は、第1アクチュエータ4cと第2アクチュエータ4dを備えており、これらはそれぞれ、車両2のアクセルペダル2cとブレーキペダル2dに当接するように設けられている。
FIG. 1 is an explanatory diagram of a test environment using a drive robot in an embodiment. A test apparatus 1 includes a vehicle 2 , a chassis dynamometer 3 and a drive robot 4 .
The vehicle 2 is provided on the floor surface. The chassis dynamometer 3 is provided below the floor surface. The vehicle 2 is positioned such that the drive wheels 2 a of the vehicle 2 rest on the chassis dynamometer 3 . When the vehicle 2 runs and the drive wheels 2a rotate, the chassis dynamometer 3 rotates in the opposite direction.
The drive robot 4 is mounted on the driver's seat 2b of the vehicle 2 and causes the vehicle 2 to travel. The drive robot 4 includes a first actuator 4c and a second actuator 4d, which are provided to contact an accelerator pedal 2c and a brake pedal 2d of the vehicle 2, respectively.

ドライブロボット4は、制御装置10によって制御されている。より詳細には、制御装置10は、ドライブロボット4の第1アクチュエータ4cと第2アクチュエータ4dを制御することにより、車両2のアクセルペダル2cとブレーキペダル2dの開度を変更、調整する。
制御装置10は、ドライブロボット4を、車両2が規定された指令車速に従って走行するように制御する。すなわち、制御装置10は、車両2のアクセルペダル2cとブレーキペダル2dの開度を変更することで、規定された走行パターン(モード)に従うように、車両1を走行制御する。より詳細には、制御装置10は、走行開始から時間が経過するに従い、各時間に到達すべき車速である指令車速に従うように、車両2を走行制御する。
The drive robot 4 is controlled by the control device 10 . More specifically, the control device 10 changes and adjusts the opening degrees of the accelerator pedal 2c and the brake pedal 2d of the vehicle 2 by controlling the first actuator 4c and the second actuator 4d of the drive robot 4 .
The control device 10 controls the drive robot 4 so that the vehicle 2 travels according to the prescribed command vehicle speed. That is, the control device 10 changes the opening degrees of the accelerator pedal 2c and the brake pedal 2d of the vehicle 2, thereby controlling the vehicle 1 so as to follow a prescribed driving pattern (mode). More specifically, the control device 10 controls the traveling of the vehicle 2 so as to follow the commanded vehicle speed, which is the vehicle speed to be reached at each time, as time elapses from the start of traveling.

制御装置10は、互いに通信可能に設けられた、ドライブロボット制御部20と、学習部30を備えている。
ドライブロボット制御部20は、ドライブロボット4の制御を行うための制御信号を生成し、ドライブロボット4に送信することで、ドライブロボット4を制御する。学習部30は、後に説明するような機械学習器に対して強化学習を行い、学習モデルを生成する。この学習モデルの出力を基に、ドライブロボット4の制御を行うための制御信号が生成される。
ドライブロボット制御部20は、例えば、ドライブロボット4の筐体外部に設けられた、コントローラ等の情報処理装置である。学習部30は、例えばパーソナルコンピュータ等の情報処理装置である。
The control device 10 includes a drive robot control section 20 and a learning section 30 which are provided so as to be able to communicate with each other.
The drive robot control unit 20 controls the drive robot 4 by generating a control signal for controlling the drive robot 4 and transmitting it to the drive robot 4 . The learning unit 30 performs reinforcement learning on a machine learning device, which will be described later, to generate a learning model. A control signal for controlling the drive robot 4 is generated based on the output of this learning model.
The drive robot control unit 20 is, for example, an information processing device such as a controller provided outside the housing of the drive robot 4 . The learning unit 30 is, for example, an information processing device such as a personal computer.

図2は、制御装置10のブロック図である。ドライブロボット制御部20は、指令車速記憶部21、走行状態取得部22、及び車両操作制御部23を備えている。学習部30は、操作内容推論部31、報酬計算部32、強化学習部33、及び学習用データ記憶部34を備えている。
これら制御装置10の構成要素のうち、走行状態取得部22、車両操作制御部23、操作内容推論部31、報酬計算部32、及び強化学習部33は、例えば上記の各情報処理装置内のCPUにより実行されるソフトウェア、プログラムであってよい。また、指令車速記憶部21及び学習用データ記憶部34は、上記各情報処理装置内外に設けられた半導体メモリや磁気ディスクなどの記憶装置により実現されていてよい。
FIG. 2 is a block diagram of the control device 10. As shown in FIG. The drive robot control section 20 includes a command vehicle speed storage section 21 , a running state acquisition section 22 and a vehicle operation control section 23 . The learning unit 30 includes an operation content inference unit 31 , a reward calculation unit 32 , a reinforcement learning unit 33 , and a learning data storage unit 34 .
Among the components of the control device 10, the driving state acquisition unit 22, the vehicle operation control unit 23, the operation content inference unit 31, the reward calculation unit 32, and the reinforcement learning unit 33 are, for example, CPUs in the above information processing devices. It may be software or a program executed by Also, the command vehicle speed storage unit 21 and the learning data storage unit 34 may be implemented by a storage device such as a semiconductor memory or a magnetic disk provided inside or outside each information processing device.

後に説明するように、操作内容推論部31は、ある時刻における走行状態を基に、当該時刻よりも後の車両2の操作の内容を推論する。この、車両2の操作の内容の推論を効果的に行うために、特に操作内容推論部31は、後に説明するように機械学習器を備えており、推論した操作の内容に基づいたドライブロボット4の操作の後の時刻における走行状態に基づいて計算された報酬を基に機械学習器を強化学習して学習モデル(第1学習モデル)40を生成する。操作内容推論部31は、性能測定のために実際に車両2を走行制御させる際には、この学習が完了した第1学習モデル40を使用して、車両2の操作の内容を推論する。
すなわち、制御装置10は大別して、強化学習時における操作の内容の学習と、性能測定のために車両を走行制御させる際における操作の内容の推論の、2通りの動作を行う。説明を簡単にするために、以下ではまず、操作の内容の学習時における、制御装置10の各構成要素の説明をした後に、車両の性能測定に際して操作の内容を推論する場合での各構成要素の挙動について説明する。
図2においては、各構成要素が太線と細線の2種類の矢印で結ばれて、データや処理の流れが示されている。車両の性能測定に際して操作の内容を推論する場合でのデータや処理の流れは、太線により示されている。操作の内容の学習時におけるデータや処理の流れは、太線と細線の双方の矢印により示されている。
As will be described later, the operation content inference unit 31 infers the content of the operation of the vehicle 2 after that time based on the running state at a certain time. In order to effectively infer the content of the operation of the vehicle 2, the operation content inference unit 31 in particular is equipped with a machine learning device as will be described later. A learning model (first learning model) 40 is generated by performing reinforcement learning on the machine learning device based on the reward calculated based on the running state at the time after the operation of . When actually controlling the vehicle 2 for performance measurement, the operation content inference unit 31 uses the first learning model 40 for which the learning has been completed to infer the content of the operation of the vehicle 2 .
That is, the control device 10 can be roughly classified into two types of operations: learning of operation details during reinforcement learning, and inference of operation details when controlling the running of the vehicle for performance measurement. In order to simplify the explanation, first, each component of the control device 10 when learning the content of the operation will be described, and then each component when inferring the content of the operation when measuring the performance of the vehicle. behavior.
In FIG. 2, each component is connected by two types of arrows, a thick line and a thin line, to show the flow of data and processing. The data and processing flow in the case of inferring the details of the operation when measuring the performance of the vehicle are indicated by thick lines. The flow of data and processing during learning of operation details is indicated by both thick and thin arrows.

まず、操作の内容の学習時における、ドライブロボット制御部20の構成要素の挙動を説明する。
指令車速記憶部21には、モードに関する情報に基づいて生成された、指令車速が記憶されている。モードは、例えば、走行開始から経過した時間と、その時に到達すべき車速との関係であり、したがって指令車速記憶部21には、実際には、経過時間と指令車速の関係が表現された、例えばテーブルやグラフ、関数等が格納されている。
First, the behavior of the components of the drive robot control unit 20 during learning of operation details will be described.
The command vehicle speed storage unit 21 stores a command vehicle speed generated based on the information regarding the mode. The mode is, for example, the relationship between the elapsed time from the start of running and the vehicle speed to be reached at that time. For example, tables, graphs, functions, etc. are stored.

走行状態取得部22は、現在時点における、車両2の走行状態を取得する。車両2の走行状態は、車両2に備えられた様々な図示されない計測器や、車両2を操作するドライブロボット4内に記録された操作実績から取得され得る。すなわち、車両2の走行状態は、現在時点における車両2の動作状況を数値化して表現したものであり、この値を取得する手段は、車両2の計測器による計測値に限られず、ドライブロボット4によって取得可能な値をも含む。
走行状態としては、前回の走行状態取得時刻からのアクセルペダル操作の、ドライブロボット4の操作実績中の操作量(以下、アクセルペダル検出量と呼称する)、前回の走行状態取得時刻からのブレーキペダル操作の、ドライブロボット4の操作実績中の操作量(以下、ブレーキペダル検出量と呼称する)、車両2において検出されたエンジン回転数(以下、エンジン回転数検出量と呼称する)、車両2において検出された車速(以下、検出車速と呼称する)を含む。
走行状態は、更に、当該走行状態が取得された時刻において、車両2が実現すべき指令車速を含む。
The running state acquisition unit 22 acquires the current running state of the vehicle 2 . The running state of the vehicle 2 can be obtained from various measuring instruments (not shown) provided on the vehicle 2 and the operation results recorded in the drive robot 4 that operates the vehicle 2 . In other words, the running state of the vehicle 2 is a numerical representation of the operational state of the vehicle 2 at the present point in time. Also includes values that can be obtained by
As the driving state, the amount of operation of the accelerator pedal during the actual operation of the drive robot 4 (hereinafter referred to as the accelerator pedal detection amount) since the time when the previous driving state was obtained, and the brake pedal since the time when the previous driving state was obtained. The amount of operation during the operation record of the drive robot 4 (hereinafter referred to as the brake pedal detection amount), the engine speed detected in the vehicle 2 (hereinafter referred to as the engine speed detection amount), the vehicle 2 It includes the detected vehicle speed (hereinafter referred to as the detected vehicle speed).
The running state further includes a command vehicle speed that the vehicle 2 should achieve at the time when the running state is acquired.

上記の走行状態の各々は、スカラー値であってもよいが、複数の値により実現されていてもよい。
走行状態の各々は、後述する機械学習器を学習させて学習モデル(第1学習モデル40)を生成する際の入力として主に使用される。このため、走行状態の各々に関し、走行状態が取得された時点のみではなく、その前後の複数の時刻において値を取得し、機械学習器の入力とすることにより、過去の経過や将来の推測を活かしてより効果的に学習することができる可能性がある。
例えば、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速等の、車両2の状態を実際に観測、計測することにより取得される走行状態については、機械学習器の学習アルゴリズムにおいて使用する過去の観測データの参照時間を観測データ参照時間Tobsとすると、観測データ参照時間Tobsの系列として、複数の値を有していてもよい。
また、上記のような観測データとは異なり、指令車速記憶部21に値が格納されており全ての時刻における値が随時参照可能な状態となっている指令車速については、機械学習器の学習アルゴリズムにおいて使用する将来の指令車速の参照時間を指令車速参照時間Trefとすると、指令車速参照時間Trefの系列として、複数の値を有していてもよい。
本実施形態においては、走行状態の各々は、複数の値により実現されている。
Each of the above running states may be a scalar value, or may be realized by a plurality of values.
Each of the running states is mainly used as an input when learning a machine learning device, which will be described later, to generate a learning model (first learning model 40). For this reason, for each driving state, values are obtained not only at the time when the driving state was obtained, but also at multiple times before and after that, and by inputting them to the machine learning device, past progress and future predictions can be made. There is a possibility that it can be used to learn more effectively.
For example, the driving state obtained by actually observing and measuring the state of the vehicle 2, such as the detected amount of accelerator pedal, the detected amount of brake pedal, the detected amount of engine speed, and the detected vehicle speed, is determined by the learning algorithm of the machine learning device. If the past observation data reference time used in 1 is assumed to be observation data reference time T obs , the series of observation data reference time T obs may have a plurality of values.
Further, unlike the observation data described above, the command vehicle speed, whose value is stored in the command vehicle speed storage unit 21 and can be referred to at any time, is stored in the learning algorithm of the machine learning device. Assuming that the reference time of the future commanded vehicle speed to be used in the above is the commanded vehicle speed reference time T ref , the sequence of the commanded vehicle speed reference time T ref may have a plurality of values.
In this embodiment, each running state is realized by a plurality of values.

走行状態取得部22は、車両2に備えられた様々な図示されない計測器やドライブロボット4内に記録された操作実績等から、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速を取得する。
また、走行状態取得部22は、指令車速記憶部21から、指令車速を取得する。
走行状態取得部22は、これらの取得した走行状態を、学習部30へ送信する。
The driving state acquisition unit 22 obtains the accelerator pedal detection amount, the brake pedal detection amount, the engine rotation speed detection amount, and the like from various measuring instruments (not shown) provided in the vehicle 2 and operation results recorded in the drive robot 4. Get vehicle speed.
Also, the running state acquisition unit 22 acquires the command vehicle speed from the command vehicle speed storage unit 21 .
The running state acquisition unit 22 transmits these acquired running states to the learning unit 30 .

車両操作制御部23は、次に説明する操作内容推論部31が、走行状態取得部22が送信した送信状態を基に推論した、操作の内容を受信し、これを基にしてドライブロボット4を制御する制御信号を生成して、ドライブロボット4へ送信する。 The vehicle operation control unit 23 receives the details of the operation inferred by the operation content inference unit 31 based on the transmission state transmitted by the driving state acquisition unit 22, and controls the drive robot 4 based on this. A control signal for control is generated and transmitted to the drive robot 4 .

次に、操作の内容の学習時における、学習部30の構成要素の挙動を説明する。
学習部30の操作内容推論部31は、機械学習器を備えている。この機械学習器は、強化学習されることにより、第1学習モデル40が生成される。第1学習モデル40は、車両2の操作の内容を推論するのに使用される。すなわち、機械学習器は、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される、適切な学習パラメータが学習された学習済みモデル40を生成するものである。
学習部30は、この機械学習器を強化学習するに際し、強化学習に必要な入力となる、走行データを蓄積する。制御装置10が、学習がまだ終了していない、学習途中の機械学習器によって推論された操作の内容によって、一連のデータ収集を行う際における時間単位であるエピソードごとに車両2を走行制御することにより、走行データが蓄積される。この走行データにより機械学習器を強化学習した後に、この出力となる操作の内容を用いて再度走行データを蓄積し、機械学習器を再度学習する。このように、機械学習器を繰り返し更新することにより、最終的に強化学習された、学習済みの第1学習モデル40が生成される。
以下、説明を簡単にするため、操作内容推論部31が備えている機械学習器と、これが学習されて生成される学習モデルをともに、第1学習モデル40と呼称する。
Next, the behavior of the constituent elements of the learning unit 30 during learning of operation details will be described.
The operation content inference unit 31 of the learning unit 30 includes a machine learning device. This machine learning device generates the first learning model 40 through reinforcement learning. The first learning model 40 is used to infer the details of the operation of the vehicle 2 . That is, the machine learner generates a trained model 40 trained with appropriate learning parameters, which is used as a program module that is part of artificial intelligence software.
The learning unit 30 accumulates driving data, which is an input necessary for the reinforcement learning, when the machine learning device performs the reinforcement learning. The control device 10 performs travel control of the vehicle 2 for each episode, which is a unit of time when a series of data is collected, according to the details of the operation inferred by the machine learning device that has not finished learning yet. The running data is accumulated by . After the machine learning device has undergone reinforcement learning with this travel data, the travel data is accumulated again using the contents of this output operation, and the machine learner learns again. By repeatedly updating the machine learning device in this manner, the trained first learning model 40 that is finally subjected to reinforcement learning is generated.
Hereinafter, for the sake of simplicity, the machine learning device included in the operation content inference unit 31 and the learning model generated by learning the machine learning device are both referred to as the first learning model 40 .

操作内容推論部31は、ある時刻(第1の時刻)において、走行状態取得部22から走行状態を受信すると、これを基に、学習中の第1学習モデル40により、第1の時刻より後の車両2の操作の内容を推論する。 When the operation content inference unit 31 receives the running state from the running state acquisition unit 22 at a certain time (first time), the operation content inference unit 31 uses the first learning model 40 that is learning based on the running state to receive the running state after the first time. infers the content of the operation of the vehicle 2.

第1学習モデル40は、所定の第1の時間間隔をおいて、車両2の操作の内容を推論する。この、第1学習モデル40における推論の間隔を、以降、ステップ周期Tstepと呼称する。
ドライブロボット制御部20は、後述するように、ドライブロボット4を制御する制御信号を、ドライブロボット4へと、所定の第2の時間間隔をおいて送信する。この、制御信号の送信間隔を制御周期Tとすると、ステップ周期Tstepは、制御周期Tと同等であってもよいし、制御周期Tよりも大きな値であってもよい。ステップ周期Tstepが制御周期Tよりも大きな値である場合には、第1学習モデル40は、一度の推論により、ステップ周期Tstepに含まれる複数の制御周期Tに相当する、複数の、車両2の操作の内容を出力する。
本実施形態においては、操作内容推論部31は、第1学習モデル40によって、第1の時刻からステップ周期Tstep後までの時間範囲内の、複数の制御周期Tに相当する複数の時刻における操作の内容を推論する。
The first learning model 40 infers the content of the operation of the vehicle 2 at predetermined first time intervals. This inference interval in the first learning model 40 is hereinafter referred to as a step period T step .
As will be described later, the drive robot control unit 20 transmits control signals for controlling the drive robot 4 to the drive robot 4 at predetermined second time intervals. Assuming that the control signal transmission interval is the control period Ts, the step period Tstep may be equal to the control period Ts , or may be a value larger than the control period Ts. When the step period T step is a larger value than the control period T s , the first learning model 40 can generate a plurality of values corresponding to the plurality of control periods T s included in the step period T step by one inference. , to output the content of the operation of the vehicle 2 .
In the present embodiment, the operation content inference unit 31 uses the first learning model 40 to determine the Infer the content of the operation.

また、第1学習モデル40は、上記のように、第1の時刻より後の、少なくともステップ周期Tstep後までの将来にわたる車両2の操作の内容を推論するが、この推論の対象となる時間間隔は、実際には、ステップ周期Tstepよりも大きくてもよい。すなわち、第1学習モデル40は、実際には、ステップ周期Tstep後までの時間範囲内における車両2の操作の内容を推論すると同時に、ステップ周期Tstep後よりも更に将来の時刻における、車両2の操作の内容を推論してもよい。この、第1学習モデル40によって推論する時間範囲を、行動出力時間Tpredと呼称する。この場合においては、操作内容推論部31は、第1学習モデル40によって、第1の時刻から行動出力時間Tpred後までの時間範囲内の、複数の制御周期Tに相当する複数の時刻における操作の内容を推論する。
このようにした場合においては、第1学習モデル40は、実際に車両2が操作されるステップ周期Tstep後までの操作の内容を推測するに際し、ステップ周期Tstepよりも更に後の時刻における車両2の操作の内容を推測するため、将来の状況を見越した推測をするようになる可能性がある。
In addition, as described above, the first learning model 40 infers the content of the future operation of the vehicle 2 after the first time and at least after the step period T step . The interval may actually be larger than the step period T step . That is, the first learning model 40 actually infers the details of the operation of the vehicle 2 within the time range up to after the step period T step , and at the same time, the operation of the vehicle 2 at a future time after the step period T step . You may infer the content of the operation of This time range inferred by the first learning model 40 is called action output time T pred . In this case, the operation content inference unit 31 uses the first learning model 40 to determine the Infer the content of the operation.
In this case, the first learning model 40, when estimating the details of the operation up to after the step period T step in which the vehicle 2 is actually operated, assumes that the vehicle at the time after the step period T step is actually operated. In order to guess the contents of the operation of 2, there is a possibility that it will come to make a guess in anticipation of the future situation.

図3は、第1学習モデル40のブロック図である。
本実施形態においては、第1学習モデル40は、中間層を3層とした全5層の全結合型のニューラルネットワークにより実現されている。第1学習モデル40は、入力層41、中間層42、及び出力層43を備えている。
図3においては、各層が矩形として描かれており、各層に含まれるノードは省略されている。
FIG. 3 is a block diagram of the first learning model 40. As shown in FIG.
In the present embodiment, the first learning model 40 is implemented by a fully-connected neural network with five layers in total, with three intermediate layers. The first learning model 40 has an input layer 41 , an intermediate layer 42 and an output layer 43 .
In FIG. 3, each layer is drawn as a rectangle, and the nodes included in each layer are omitted.

入力層41は、複数の入力ノードを備えている。複数の入力ノードの各々は、例えばアクセルペダル検出量s1、ブレーキペダル検出量s2から、指令車速sNに至るまでの、走行状態sの各々に対応するように設けられている。
既に説明したように、各走行状態sは、複数の値により実現されている。例えば、図3においては、一つの矩形として示されている、アクセルペダル検出量s1に対応する入力は、実際には、アクセルペダル検出量s1の複数の値の各々に対応するように、入力ノードが設けられている。
各入力ノードには、走行状態取得部22から受信した、対応する走行状態sの値が格納される。
The input layer 41 has a plurality of input nodes. Each of the plurality of input nodes is provided to correspond to each running state s, for example, from the accelerator pedal detection amount s1 and the brake pedal detection amount s2 to the command vehicle speed sN.
As already explained, each running state s is realized by a plurality of values. For example, in FIG. 3, the input corresponding to the accelerator pedal detection amount s1, which is shown as one rectangle, actually corresponds to each of a plurality of values of the accelerator pedal detection amount s1. is provided.
Each input node stores the value of the corresponding running state s received from the running state acquisition unit 22 .

中間層42は、第1中間層42a、第2中間層42b、及び第3中間層42cを備えている。
中間層42の各ノードにおいては、前段の層(例えば、第1中間層42aの場合は入力層41、第2中間層42bの場合は第1中間層42a)の各ノードから、この前段の層の各ノードに格納された値と、前段の層の各ノードから当該中間層42のノードへの重みを基にした演算がなされて、当該中間層42のノード内に演算結果が格納される。
本実施形態においては、この演算において使用される活性化関数は、例えばReLU(Rectified Linear Unit)である。
The intermediate layer 42 includes a first intermediate layer 42a, a second intermediate layer 42b, and a third intermediate layer 42c.
At each node of the intermediate layer 42, from each node of the previous layer (for example, the input layer 41 in the case of the first intermediate layer 42a, and the first intermediate layer 42a in the case of the second intermediate layer 42b), this previous layer and the weight from each node of the previous layer to the node of the intermediate layer 42, and the result of the operation is stored in the node of the intermediate layer 42.
In this embodiment, the activation function used in this operation is, for example, ReLU (Rectified Linear Unit).

出力層43においても、中間層42の各々と同様な演算が行われ、出力層43に備えられた各出力ノードに演算結果が格納される。複数の出力ノードの各々は、操作の内容aの各々に対応するように設けられている。本実施形態においては、車両2の操作の対象は、アクセルペダル2cとブレーキペダル2dであり、これに対応して、操作の内容aは、例えばアクセルペダル操作a1とブレーキペダル操作a2となっている。
既に説明したように、各操作の内容aは、複数の値により実現されている。例えば、図3においては、一つの矩形として示されている、アクセルペダル操作a1に対応する出力は、実際には、アクセルペダル操作a1の複数の値の各々に対応するように、出力ノードが設けられている。
In the output layer 43 as well, operations similar to those in each of the intermediate layers 42 are performed, and the operation results are stored in each output node provided in the output layer 43 . Each of the plurality of output nodes is provided so as to correspond to each of the contents a of the operation. In this embodiment, the objects of operation of the vehicle 2 are the accelerator pedal 2c and the brake pedal 2d, and correspondingly, the operation contents a are, for example, the accelerator pedal operation a1 and the brake pedal operation a2. .
As already explained, the content a of each operation is realized by a plurality of values. For example, in FIG. 3, the output corresponding to the accelerator pedal operation a1, which is shown as one rectangle, is actually provided with an output node so as to correspond to each of a plurality of values of the accelerator pedal operation a1. It is

第1学習モデル40においては、上記のように走行状態sが入力されて、適切な操作の内容aを演算することができるように学習がなされる。この学習においては、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値が調整される。
第1学習モデル40の具体的な学習については、後に説明する。
In the first learning model 40, the driving state s is input as described above, and learning is performed so that the appropriate operation content a can be calculated. In this learning, the values of the parameters that make up the neural network, such as weights and bias values, are adjusted.
Specific learning of the first learning model 40 will be described later.

操作内容推論部31は、上記のように、第1の時刻における走行状態sを基に、第1の時刻より後の行動出力時間Tpredまでにおける車両2の操作の内容aを推論し、ドライブロボット制御部20の車両操作制御部23へ送信する。
この操作の内容aに基づき、車両操作制御部23はステップ周期Tstepの間、ドライブロボット4を操作する。
そして、走行状態取得部22は、操作後の車両2の、第1の時刻よりも後の第2の時刻における走行状態を再度取得する。
As described above, the operation content inference unit 31 infers the operation content a of the vehicle 2 up to the behavior output time T pred after the first time based on the running state s at the first time, and drives the vehicle 2. It is transmitted to the vehicle operation control section 23 of the robot control section 20 .
Based on this operation content a, the vehicle operation control unit 23 operates the drive robot 4 during the step period T step .
Then, the running state acquisition unit 22 acquires again the running state of the vehicle 2 after the operation at the second time after the first time.

以降においては、第1の時刻で取得された走行状態と第2の時刻で取得された走行状態を区別して記載するため、第1の時刻で取得された走行状態を走行状態s、第2の時刻で取得された走行状態を走行状態st+1と記載する。また、第1の時刻で取得された走行状態sに対して推論され、実行された操作の内容を操作の内容aと記載する。
操作内容推論部31は、第1の時刻における走行状態s、これに対して推論され実際に実行された操作の内容a、及び第2の時刻における走行状態st+1を、次に説明する報酬計算部32に送信する。
報酬計算部32は、強化学習に際し必要となる値である報酬を計算する。後述する強化学習部33は、この報酬を基に、操作の内容aがどの程度適切であったかを示す行動価値を計算し、第1学習モデル40は、この行動価値が高くなるような操作の内容aを出力するように、強化学習が行われる。
報酬計算部32によって計算された報酬は、操作内容推論部31に送信されて操作内容推論部31により受信され、これを受けて操作内容推論部31は、第1の時刻における走行状態s、操作の内容a、第2の時刻における走行状態st+1と、及び受信した報酬の組み合わせを、学習用データ記憶部34へ送信し、記憶する。
Hereinafter, in order to distinguish between the running state acquired at the first time and the running state acquired at the second time, the running state acquired at the first time is the running state s t , the second The running state obtained at the time of is described as running state st+1 . Further, the content of the operation inferred and executed for the running state st acquired at the first time is described as the content of operation at.
The operation content inference unit 31 describes the running state s t at the first time, the operation content a t inferred and actually executed for this, and the running state s t+1 at the second time. It is transmitted to the remuneration calculation unit 32 .
The reward calculator 32 calculates a reward that is a value required for reinforcement learning. Based on this reward, the reinforcement learning unit 33, which will be described later, calculates an action value indicating how appropriate the content of the operation at is. Reinforcement learning is performed so as to output content a.
The reward calculated by the reward calculation unit 32 is transmitted to the operation content inference unit 31 and received by the operation content inference unit 31. In response to this, the operation content inference unit 31 calculates the running state s t at the first time, The operation content a t , the running state s t+1 at the second time, and the combination of the received reward are transmitted to the learning data storage unit 34 and stored.

報酬計算部32は、操作内容推論部31から、第1の時刻における走行状態s、操作の内容a、及び第2の時刻における走行状態st+1を受信する。報酬は、操作の内容a、及びこれに伴う第2の時刻における走行状態st+1が望ましくないほど小さい値を、望ましいほど大きい値を、有するように設計されている。強化学習部33は、後述の数式2により、報酬が大きいほど行動価値(評価値)を高くするように計算し、第1学習モデル40はこの行動価値が高くなるような操作の内容aを出力するように、強化学習が行われる。 The reward calculation unit 32 receives the running state s t at the first time, the operation content a t , and the running state s t+1 at the second time from the operation content inference unit 31 . The reward is designed such that the content of the maneuver a t , and thus the driving state s t+1 at the second time, has an undesirably small value and a desirably large value. The reinforcement learning unit 33 calculates, according to Formula 2 described later, such that the action value (evaluation value) increases as the reward increases, and the first learning model 40 determines the operation content at to increase the action value. Reinforcement learning is performed so as to output.

本実施形態においては、制御装置10は、燃費や排ガス性能を考慮してドライブロボット4を制御するものであるため、報酬には、燃費と排ガス性能が反映されている。
燃費は、例えばガソリンや軽油などの燃料の、単位容量当たりの走行距離、または、一定の距離をどれだけの燃料で走行できるかを示す指標である。
排ガス性能は、排気ガスに含まれる、一酸化炭素、窒素酸化物、炭化水素類、黒煙等の大気汚染物質の濃度が、一定の基準以下であるか否かを示す指標である。
これら燃費や排ガス性能は、車両2の操作という観点では、アクセルペダル2cとブレーキペダル2dの操作が関連する。すなわち、報酬は、アクセルペダル2cとブレーキペダル2dの検出量に基づいて計算されるのが適切である。
In this embodiment, the control device 10 controls the drive robot 4 in consideration of fuel consumption and exhaust gas performance, so fuel consumption and exhaust gas performance are reflected in the reward.
The fuel consumption is an index that indicates how much fuel can be used to travel a certain distance or distance per unit capacity of fuel such as gasoline or light oil.
Exhaust gas performance is an index that indicates whether the concentration of air pollutants such as carbon monoxide, nitrogen oxides, hydrocarbons, and black smoke contained in exhaust gas is below a certain standard.
From the viewpoint of operation of the vehicle 2, these fuel consumption and exhaust gas performance are related to the operation of the accelerator pedal 2c and the brake pedal 2d. That is, it is appropriate that the reward is calculated based on the detected amounts of the accelerator pedal 2c and the brake pedal 2d.

ただし、燃費や排ガス性能を向上させることに注目するあまり、制御装置10が本来達成すべき、指令車速への追従性能が損なわれることがあってはならない。このため、報酬は、アクセルペダル2cとブレーキペダル2dの検出量に加えて、指令車速への追従性能に基づいて計算されるのが望ましい。 However, too much attention should be paid to improving fuel efficiency and exhaust gas performance, and the ability to follow the commanded vehicle speed, which the control device 10 should originally achieve, should not be impaired. Therefore, the reward is desirably calculated based on the performance of following the commanded vehicle speed in addition to the detected amounts of the accelerator pedal 2c and the brake pedal 2d.

本実施形態においては、rを指令車速への追従性に基づいて計算される指令車速報酬要素(第2要素)、rAPをアクセルペダル2cの検出量に基づいて計算されるアクセルペダル報酬要素(第1要素)、rBPをブレーキペダル2dの検出量に基づいて計算されるブレーキペダル報酬要素(第1要素)としたときに、報酬rは、次の数式1によって表わされる。
ここで、w、wAP、wBPは、それぞれ、指令車速報酬要素r、アクセルペダル報酬要素rAP、ブレーキペダル報酬要素rBPに対応した重みである。
In this embodiment, rs is a commanded vehicle speed reward element (second element) calculated based on the ability to follow the commanded vehicle speed, and rAP is an accelerator pedal reward element calculated based on the detected amount of the accelerator pedal 2c. (first element), when rBP is a brake pedal reward element (first element) calculated based on the detected amount of the brake pedal 2d, the reward r is expressed by the following Equation 1.
Here, w s , w AP , and w BP are weights corresponding to command vehicle speed reward element r s , accelerator pedal reward element r AP , and brake pedal reward element r BP , respectively.

Figure 0007110891000001
Figure 0007110891000001

このように、報酬rは、指令車速への追従性や、アクセルペダル2c、ブレーキペダル2dの検出量等の、各要素に対応する報酬要素を計算したうえで、これらの重みづけ和を計算することで、一つのスカラー値として計算されている。 In this way, the reward r is calculated by calculating the weighted sum of the reward elements corresponding to each element, such as the followability to the commanded vehicle speed and the detected amount of the accelerator pedal 2c and the brake pedal 2d. Therefore, it is calculated as one scalar value.

指令車速報酬要素rは、例えば、操作内容推論部31から受信した第2の時刻における走行状態st+1において、検出車速と指令車速の差分の絶対値を計算し、これが所定の第1閾値以下であれば、差分値が小さいほど大きな値となる、正の値とし、第1閾値よりも大きければ、差分値が大きいほど小さな値となる、負の値とすることで、計算され得る。
この場合においては、操作の内容aによって検出車速が指令車速に十分に追従できている場合においては、検出車速と指令車速の差分の絶対値は第1閾値以下の値となり、指令車速報酬要素rの値が大きくなる。逆に、検出車速が指令車速に十分に追従できていない場合においては、検出車速と指令車速の差分の絶対値は第1閾値よりも大きな値となり、指令車速報酬要素rの値が小さくなる。
このように、操作の内容aに基づいたドライブロボット4の操作の後の、第2の時刻における検出車速と指令車速との差が小さいほど値が大きくなるように設定された指令車速報酬要素r(第2要素)が計算され、指令車速報酬要素rを基に報酬rが計算されている。
The commanded vehicle speed reward element r s , for example, calculates the absolute value of the difference between the detected vehicle speed and the commanded vehicle speed in the running state s t+1 at the second time received from the operation content inference unit 31, and the difference is equal to or less than a predetermined first threshold. Then, the smaller the difference value, the larger the positive value, and if the difference value is larger than the first threshold, the larger the difference value, the smaller the negative value.
In this case, when the detected vehicle speed can sufficiently follow the commanded vehicle speed due to the operation content at, the absolute value of the difference between the detected vehicle speed and the commanded vehicle speed becomes a value equal to or less than the first threshold value, and the commanded vehicle speed reward element. The value of r s increases. Conversely, when the detected vehicle speed does not sufficiently follow the commanded vehicle speed, the absolute value of the difference between the detected vehicle speed and the commanded vehicle speed becomes a value larger than the first threshold, and the value of the commanded vehicle speed reward element rs becomes smaller. .
In this way, the commanded vehicle speed reward element is set such that the smaller the difference between the detected vehicle speed and the commanded vehicle speed at the second time after the operation of the drive robot 4 based on the content of the operation at, the larger the value. rs (second element) is calculated, and the reward r is calculated based on the command vehicle speed reward element rs .

アクセルペダル報酬要素rAPに関しては、例えば、操作内容推論部31から受信した第2の時刻における走行状態st+1において、第1の時刻からのアクセルペダル検出量の推移を取得し、時間軸と、アクセルペダル2cの検出量を軸とする座標系上で、検出量を関数として表現する。アクセルペダル報酬要素rAPは、この関数の二階微分または一階微分の値を基に計算され得る。 Regarding the accelerator pedal reward element rAP , for example, in the running state s t+1 at the second time received from the operation content inference unit 31, the transition of the accelerator pedal detection amount from the first time is acquired, and the time axis and The detected amount is expressed as a function on a coordinate system whose axis is the detected amount of the accelerator pedal 2c. The accelerator pedal reward factor rAP can be calculated based on the value of the second derivative or the first derivative of this function.

二階微分の場合においては、例えば、上記関数の二階微分の最大値の絶対値を計算し、これが所定の第2閾値(所定の閾値)以下であれば、最大値の絶対値が小さいほど大きな値となる、正の値とし、第2閾値よりも大きければ、最大値の絶対値が大きいほど小さな値となる、負の値とすることで、計算され得る。
この場合においては、操作の内容aにおいてアクセルペダル2cの開度が急激に変わらず、燃費や排ガス性能が良好であると考えられる場合においては、上記曲線の接線の傾きは時間と共に大きく変化せず、したがって関数の二階微分の最大値の絶対値は第2閾値以下の値となり、アクセルペダル報酬要素rAPの値が大きくなる。逆に、操作の内容aにおいてアクセルペダル2cの開度が急激に変化し、燃費や排ガス性能が良好ではないと考えられる場合においては、上記曲線の接線の傾きは時間と共に大きく変化し、したがって関数の二階微分の最大値の絶対値は第2閾値よりも大きな値となり、アクセルペダル報酬要素rAPの値が小さくなる。
In the case of the second derivative, for example, the absolute value of the maximum value of the second derivative of the above function is calculated. , and if it is larger than the second threshold, it becomes a negative value that decreases as the absolute value of the maximum value increases.
In this case, if the degree of opening of the accelerator pedal 2c does not change abruptly in the operation contents at, and the fuel consumption and exhaust gas performance are considered to be good, the slope of the tangent line of the above curve does not change greatly with time. Therefore, the absolute value of the maximum value of the second derivative of the function becomes a value equal to or less than the second threshold value, and the value of the accelerator pedal reward element rAP becomes large. Conversely, when the degree of opening of the accelerator pedal 2c changes abruptly in the operation at at, and the fuel consumption and exhaust gas performance are considered unsatisfactory, the slope of the tangent to the above curve changes greatly over time. The absolute value of the maximum value of the second derivative of the function becomes a value larger than the second threshold, and the value of the accelerator pedal reward element r AP becomes smaller.

一階微分の場合においても同様に、例えば、上記関数の一階微分の最大値の絶対値を計算し、これが所定の第3閾値(所定の閾値)以下であれば、最大値の絶対値が小さいほど大きな値となる、正の値とし、第3閾値よりも大きければ、最大値の絶対値が大きいほど小さな値となる、負の値とすることで、計算され得る。
この場合においては、操作の内容aにおいてアクセルペダル2cの開度が急激に変わらず、燃費や排ガス性能が良好であると考えられる場合においては、上記曲線の接線の傾きは大きくはなく、したがって関数の一階微分の最大値の絶対値は第3閾値以下の値となり、アクセルペダル報酬要素rAPの値が大きくなる。逆に、操作の内容aにおいてアクセルペダル2cの開度が急激に変化し、燃費や排ガス性能が良好ではないと考えられる場合においては、上記曲線の接線の傾きは大きくなり、したがって関数の一階微分の最大値の絶対値は第3閾値よりも大きな値となり、アクセルペダル報酬要素rAPの値が小さくなる。
Similarly, in the case of the first derivative, for example, the absolute value of the maximum value of the first derivative of the above function is calculated. The smaller the value, the larger the positive value, and if the value is greater than the third threshold, the larger the absolute value of the maximum value, the smaller the negative value.
In this case, when the degree of opening of the accelerator pedal 2c does not change abruptly in the operation at, and the fuel efficiency and exhaust gas performance are considered to be good, the slope of the tangent line of the curve is not large. The absolute value of the maximum value of the first derivative of the function becomes a value equal to or less than the third threshold value, and the value of the accelerator pedal reward element r AP increases. Conversely, when the degree of opening of the accelerator pedal 2c changes abruptly in the operation at at, and the fuel efficiency and exhaust gas performance are considered unsatisfactory, the slope of the tangent line of the above curve increases. The absolute value of the maximum value of the differential is greater than the third threshold value, and the value of the accelerator pedal reward element r AP becomes smaller.

このように、アクセルペダル報酬要素rAPは、第1の時刻から第2の時刻までのアクセルペダル検出量の推移を関数として表わしたときに、関数の一階微分または二階微分の最大値の絶対値が所定の第2、第3閾値以下であれば、最大値の絶対値に応じた正の値となるように、かつ、最大値の絶対値が所定の第2、第3閾値よりも大きければ、最大値の絶対値に応じた負の値となるように、計算されている。 Thus, the accelerator pedal reward element rAP is the absolute value of the maximum value of the first derivative or second derivative of the function when the transition of the accelerator pedal detection amount from the first time to the second time is expressed as a function. If the value is equal to or less than the predetermined second and third thresholds, it becomes a positive value corresponding to the absolute value of the maximum value, and if the absolute value of the maximum value is greater than the predetermined second and third thresholds. For example, it is calculated to be a negative value corresponding to the absolute value of the maximum value.

ブレーキペダル報酬要素rBPに関しても同様で、例えば、操作内容推論部31から受信した第2の時刻における走行状態st+1において、第1の時刻からのブレーキペダル検出量の推移を取得し、時間軸と、ブレーキペダル2dの検出量を軸とする座標系上で、検出量を関数として表現する。ブレーキペダル報酬要素rBPは、この関数の二階微分または一階微分の値を基に計算され得る。 The same applies to the brake pedal reward element r BP . , the detected amount is expressed as a function on a coordinate system whose axis is the detected amount of the brake pedal 2d. The brake pedal reward factor r_BP can be calculated based on the second derivative or first derivative value of this function.

二階微分の場合においては、例えば、上記関数の二階微分の最大値の絶対値を計算し、これが所定の第4閾値(所定の閾値)以下であれば、最大値の絶対値が小さいほど大きな値となる、正の値とし、第4閾値よりも大きければ、最大値の絶対値が大きいほど小さな値となる、負の値とすることで、計算され得る。
この場合においては、操作の内容aにおいてブレーキペダル2dの開度が急激に変わらず、燃費や排ガス性能が良好であると考えられる場合においては、上記曲線の接線の傾きは時間と共に大きく変化せず、したがって関数の二階微分の最大値の絶対値は第4閾値以下の値となり、ブレーキペダル報酬要素rBPの値が大きくなる。逆に、操作の内容aにおいてブレーキペダル2dの開度が急激に変化し、燃費や排ガス性能が良好ではないと考えられる場合においては、上記曲線の接線の傾きは時間と共に大きく変化し、したがって関数の二階微分の最大値の絶対値は第4閾値よりも大きな値となり、ブレーキペダル報酬要素rBPの値が小さくなる。
In the case of the second derivative, for example, the absolute value of the maximum value of the second derivative of the above function is calculated. , and if it is greater than the fourth threshold value, the larger the absolute value of the maximum value, the smaller the negative value.
In this case, when the degree of opening of the brake pedal 2d does not change abruptly in the operation contents at, and the fuel consumption and exhaust gas performance are considered to be good, the slope of the tangent line of the above curve does not change greatly with time. Therefore, the absolute value of the maximum value of the second derivative of the function becomes a value equal to or less than the fourth threshold value, and the value of the brake pedal reward element rBP becomes large. Conversely, when the degree of opening of the brake pedal 2d changes abruptly in the operation content at, and the fuel consumption and exhaust gas performance are considered to be poor, the slope of the tangent line of the curve changes greatly with time, and therefore The absolute value of the maximum value of the second derivative of the function becomes a value larger than the fourth threshold, and the value of the brake pedal reward element rBP becomes small.

一階微分の場合においても同様に、例えば、上記関数の一階微分の最大値の絶対値を計算し、これが所定の第5閾値(所定の閾値)以下であれば、最大値の絶対値が小さいほど大きな値となる、正の値とし、第5閾値よりも大きければ、最大値の絶対値が大きいほど小さな値となる、負の値とすることで、計算され得る。
この場合においては、操作の内容aにおいてブレーキペダル2dの開度が急激に変わらず、燃費や排ガス性能が良好であると考えられる場合においては、上記曲線の接線の傾きは大きくはなく、したがって関数の一階微分の最大値の絶対値は第5閾値以下の値となり、ブレーキペダル報酬要素rBPの値が大きくなる。逆に、操作の内容aにおいてブレーキペダル2dの開度が急激に変化し、燃費や排ガス性能が良好ではないと考えられる場合においては、上記曲線の接線の傾きは大きくなり、したがって関数の一階微分の最大値の絶対値は第5閾値よりも大きな値となり、ブレーキペダル報酬要素rBPの値が小さくなる。
Similarly, in the case of the first-order derivative, for example, the absolute value of the maximum value of the first-order derivative of the above function is calculated. The smaller the value, the larger the positive value, and if the value is greater than the fifth threshold, the larger the absolute value of the maximum value, the smaller the negative value.
In this case, when the degree of opening of the brake pedal 2d does not change abruptly in the operation at at, and the fuel consumption and exhaust gas performance are considered to be good, the slope of the tangent line of the curve is not large. The absolute value of the maximum value of the first derivative of the function becomes a value equal to or lower than the fifth threshold, and the value of the brake pedal reward element rBP becomes large. Conversely, when the degree of opening of the brake pedal 2d changes abruptly in the operation at at, and the fuel consumption and exhaust gas performance are considered to be poor, the slope of the tangent line of the above curve becomes large. The absolute value of the maximum value of the differential is larger than the fifth threshold, and the value of the brake pedal reward element rBP becomes smaller.

このように、ブレーキペダル報酬要素rBPは、第1の時刻から第2の時刻までのブレーキペダル検出量の推移を関数として表わしたときに、関数の一階微分または二階微分の最大値の絶対値が所定の第4、第5閾値以下であれば、最大値の絶対値に応じた正の値となるように、かつ、最大値の絶対値が所定の第4、第5閾値よりも大きければ、最大値の絶対値に応じた負の値となるように、計算されている。 In this way, the brake pedal reward element rBP is the absolute value of the maximum value of the first or second derivative of the function when the transition of the brake pedal detection amount from the first time to the second time is expressed as a function. If the value is equal to or less than the predetermined fourth and fifth thresholds, it becomes a positive value corresponding to the absolute value of the maximum value, and if the absolute value of the maximum value is greater than the predetermined fourth and fifth thresholds. For example, it is calculated to be a negative value corresponding to the absolute value of the maximum value.

上記のように、アクセルペダル2c及びブレーキペダル2dの検出量の変化が小さいほど値が大きくなるように設定されたアクセルペダル報酬要素rAP、ブレーキペダル報酬要素rBPが計算され、アクセルペダル報酬要素rAP、ブレーキペダル報酬要素rBPを基に報酬rが計算されている。このように、報酬rは、入力された操作の内容aが、対応する第2の時刻における走行状態st+1での燃費と排ガス性能が高くなると考えられるものであるほど、大きな値となるように計算されている。 As described above, the accelerator pedal reward element rAP and the brake pedal reward element rBP are calculated so that the smaller the change in the detected amount of the accelerator pedal 2c and the brake pedal 2d, the larger the value of the accelerator pedal reward element rAP and the brake pedal reward element rBP. Reward r is calculated based on r AP and brake pedal reward component r BP . In this way, the remuneration r takes a larger value as the input operation content a t is considered to increase the fuel consumption and exhaust gas performance in the running state st+1 at the corresponding second time. is calculated to

既に説明したように、上記の数式1によって計算された報酬rは、操作内容推論部31へ送信されて、第1の時刻における走行状態s、操作の内容a、第2の時刻における走行状態st+1と共に組み合わされて、学習用データ記憶部34へ送信される。
ここで、報酬rは、第2の時刻における走行状態st+1に対して計算されたものであるから、以降、報酬rt+1と記載する。
学習用データ記憶部34は、操作内容推論部31から送信された、第1の時刻における走行状態s、操作の内容a、第2の時刻における走行状態st+1、及び報酬rt+1の組み合わせを受信して、記憶する。
この組み合わせは、走行データとして、第1学習モデル40の強化学習に使用される。
As already explained, the reward r calculated by the above formula 1 is transmitted to the operation content inference unit 31, and the running state s t at the first time, the operation content a t , and the running state at the second time It is combined with the state s t+1 and sent to the learning data storage unit 34 .
Here, since the reward r is calculated for the running state s t+1 at the second time, it is hereinafter referred to as the reward r t+1 .
The learning data storage unit 34 stores the combination of the running state s t at the first time, the operation content a t , the running state s t+1 at the second time, and the reward r t+1 , which are transmitted from the operation content inference unit 31 . is received and stored.
This combination is used for reinforcement learning of the first learning model 40 as travel data.

学習部30は、強化学習に十分なデータが学習用データ記憶部34に記憶されるまで、操作内容推論部31による操作の内容aの推論と、操作の内容aがドライブロボット4によって実行された後の状態st+1の取得、及び報酬計算部32によるこれを基にした報酬rt+1の計算を繰り返し、走行データを学習用データ記憶部34に蓄積する。
学習用データ記憶部34に、強化学習に十分な量の走行データが蓄積されると、次に説明する強化学習部33により強化学習が実行される。
The learning unit 30 causes the operation content inference unit 31 to infer the operation content at and the operation content at to be executed by the drive robot 4 until enough data for reinforcement learning is stored in the learning data storage unit 34 . Acquisition of the state s t+1 after the state s t+1 and calculation of the remuneration r t+1 based thereon by the remuneration calculation unit 32 are repeated, and the travel data is accumulated in the learning data storage unit 34 .
When a sufficient amount of travel data for reinforcement learning is accumulated in the learning data storage unit 34, reinforcement learning is executed by the reinforcement learning unit 33 described below.

強化学習部33は、学習用データ記憶部34から、複数の走行データを取得し、これを使用して、第1学習モデル40を強化学習する。以下に説明するように、強化学習部33は、本実施形態においては、深層強化学習アルゴリズムDDPG(Deep Deterministic Policy Gradient)によって、第1学習モデル40と、後に説明する、強化学習部33に設けられた第2学習モデル50を並行して学習させているが、強化学習に用いられるアルゴリズムは、DDPG以外の他のアルゴリズムであってもよい。
まず、第1学習モデル40の学習について説明する。
The reinforcement learning unit 33 acquires a plurality of pieces of travel data from the learning data storage unit 34 and uses them to perform reinforcement learning of the first learning model 40 . As described below, in the present embodiment, the reinforcement learning unit 33 is provided in the first learning model 40 and the reinforcement learning unit 33, which will be described later, by a deep reinforcement learning algorithm DDPG (Deep Deterministic Policy Gradient). Although the second learning model 50 is learned in parallel, an algorithm other than DDPG may be used for reinforcement learning.
First, learning of the first learning model 40 will be described.

既に説明したように、強化学習部33は、操作の内容aがどの程度適切であったかを示す行動価値を計算し、第1学習モデル40が、この行動価値が高くなるような操作の内容aを出力するように、強化学習を行う。この行動価値(評価値)は、第1の時刻における走行状態sと、これに対する操作の内容aを引数とした関数Q(s、a)として、次の式で表わされる。 As already explained, the reinforcement learning unit 33 calculates the action value indicating how appropriate the content of the operation at is, and the first learning model 40 calculates the content of the operation a Reinforcement learning is performed so as to output t . This action value (evaluation value) is expressed by the following formula as a function Q(s t , a t ) having as arguments the running state s t at the first time and the operation content a t for this.

Figure 0007110891000002
Figure 0007110891000002

上式において、γは割引率であり、αは学習率である。
行動価値関数Q(s、a)は、第1の時刻における走行状態sにおいて操作の内容aを実行した際に、以降の時刻において最終的に得られると考えられる収益、すなわち時間割引報酬の和の期待値を表す。maxQ(st+1、a)は、第2の時刻においてとり得る操作の内容aに対する行動価値関数Qの最大値であり、これに割引率γを乗算して報酬rt+1を加算した値は、第1の時刻において操作の内容aを実行し、報酬rt+1を受け取った後の、すなわち第2の時刻における行動価値である。この、第2の時刻における行動価値と、第1の時刻における行動価値Q(s、a)の差分であるTD(Temporal Difference)誤差に対し、学習率αを乗算して、元々の行動価値関数Q(s、a)に加算することにより、行動価値関数Q(s、a)を更新する。
すなわち、上記の数式2は、行動価値関数Q(s、a)の更新式であり、行動価値関数Q(s、a)は随時、更新される。
where γ is the discount rate and α is the learning rate.
The action value function Q ( s t , a t ) is the profit, that is, the time Represents the expected value of the sum of discounted rewards. maxQ(s t+1 , a) is the maximum value of the action value function Q for the content a of the operation that can be performed at the second time, and the value obtained by multiplying this by the discount rate γ and adding the reward r t+1 is the It is the action value at the second time, that is, after executing the content of the operation at at time 1 and receiving the reward r t +1 . A TD (Temporal Difference) error, which is the difference between the action value at the second time and the action value Q(s t , at ) at the first time, is multiplied by the learning rate α to obtain the original action Update the action value function Q(s t ,at ) by adding to the value function Q(s t ,at ) .
That is, Equation 2 above is an update formula for the action-value function Q(s t , a t ), and the action-value function Q(s t , a t ) is updated as needed.

既に説明したように、強化学習部33は、上記の数式2により、報酬rt+1が大きいほど行動価値Q(s、a)を高くするように計算する。この行動価値Q(s、a)が高くなるような操作の内容aを第1学習モデル40が出力するように、第1学習モデル40の強化学習は実行される。ここで、上記のように数式2は行動価値関数Q(s、a)の更新式であるため、第1学習モデル40が学習されて走行状態sと操作の内容aの出力が変化すると、行動価値関数Q(s、a)自体も更新される。
このように、強化学習部33は、第1学習モデル40の学習と、行動価値関数Q(s、a)の更新を、並行して、例えば交互に繰り返すことにより、実行する。
As already explained, the reinforcement learning unit 33 calculates the action value Q(s t , a t ) to be higher as the reward r t+1 is larger, using Equation 2 above. Reinforcement learning of the first learning model 40 is executed so that the first learning model 40 outputs the operation content a that increases the action value Q(s t , a t ). Here, since Equation 2 is an update formula for the action value function Q(s t , a t ) as described above, the first learning model 40 is learned and the output of the driving state s t and the operation content a t is When changed, the action-value function Q(s t , a t ) itself is also updated.
In this way, the reinforcement learning unit 33 performs learning of the first learning model 40 and updating of the action-value function Q(s t , a t ) in parallel, for example, by alternately repeating them.

第1学習モデル40は、上記のように、行動価値の高い操作の内容aを出力することを目的としている。すなわち、行動価値関数Q(s、a)の値ができるだけ大きい操作の内容aを出力するように、第1学習モデル40の学習は実行される。
本実施形態においては、μ(s)を、第1学習モデル40に走行状態sを入力としたときの出力関数(すなわち操作の内容a)としたときに、「-Q(s、μ(s))」の値を損失関数とし、これをできるだけ小さくする操作の内容aを出力するように、第1学習モデル40を学習させる。すなわち、誤差逆伝搬法、確率的勾配降下法等により、この損失関数が減る方向に重みやバイアスの値等の、ニューラルネットワークを構成する各パラメータの値を調整することによって、強化学習部33は第1学習モデル40を学習させる。
The purpose of the first learning model 40 is to output the operation content a with high action value, as described above. That is, learning of the first learning model 40 is executed so as to output the operation content a with the largest possible value of the action-value function Q(s t , a t ).
In the present embodiment, when μ(s t ) is the output function (that is, operation content a t ) when the driving state s t is input to the first learning model 40, "-Q(s t , μ(s t ))” as a loss function, and the first learning model 40 is trained so as to output the content of operation at to minimize this value. That is, by adjusting the values of the parameters that make up the neural network, such as weights and bias values, in the direction in which this loss function decreases, the reinforcement learning unit 33 The first learning model 40 is trained.

ここで、既に説明したように、本実施形態においては強化学習としてDDPGを用いている。すなわち、強化学習部33は、ニューラルネットワークにより実現された第2学習モデル50を備えており、数式2における行動価値関数Q(s、a)を、関数近似器としての第2学習モデル50により計算している。 Here, as already explained, DDPG is used as reinforcement learning in this embodiment. That is, the reinforcement learning unit 33 includes a second learning model 50 realized by a neural network, and converts the action-value function Q(s t , at ) in Equation 2 to the second learning model 50 as a function approximator Calculated by

図4は、第2学習モデル50のブロック図である。
本実施形態においては、第2学習モデル50は、第1学習モデル40と同様に、中間層を3層とした全5層の全結合型のニューラルネットワークにより実現されている。第2学習モデル50は、入力層51、中間層52、及び出力層53を備えている。
図4においては、各層が矩形として描かれており、各層に含まれるノードは省略されている。
FIG. 4 is a block diagram of the second learning model 50. As shown in FIG.
In this embodiment, like the first learning model 40, the second learning model 50 is implemented by a five-layer fully-connected neural network with three intermediate layers. The second learning model 50 comprises an input layer 51 , an intermediate layer 52 and an output layer 53 .
In FIG. 4, each layer is drawn as a rectangle, and the nodes included in each layer are omitted.

入力層51は、複数の入力ノードを備えている。複数の入力ノードの各々は、例えばアクセルペダル検出量s1、ブレーキペダル検出量s2から、指令車速sNに至るまでの、走行状態sの各々と、及び、例えばアクセルペダル操作a1とブレーキペダル操作a2の、操作の内容aの各々に対応するように設けられている。このように、上記の数式2における行動価値関数Q(s、a)の引数に対応するように、入力ノードが設けられている。
第1学習モデル40と同様に、各走行状態sは、複数の値により実現されている。例えば、図4においては、一つの矩形として示されている、アクセルペダル検出量s1に対応する入力は、実際には、アクセルペダル検出量s1の複数の値の各々に対応するように、入力ノードが設けられている。
また、各操作の内容aも、第1学習モデル40と同様に、複数の値により実現されている。例えば、図4においては、一つの矩形として示されている、アクセルペダル操作a1に対応する出力は、実際には、アクセルペダル操作a1の複数の値の各々に対応するように、入力ノードが設けられている。
各入力ノードには、学習用データ記憶部34から受信した、第1の時刻における走行状態sと、操作の内容aの値が格納される。
The input layer 51 has a plurality of input nodes. Each of the plurality of input nodes represents, for example, an accelerator pedal detection amount s1, a brake pedal detection amount s2, a driving state s up to a command vehicle speed sN, and, for example, an accelerator pedal operation a1 and a brake pedal operation a2. , are provided so as to correspond to each of the operation contents a. Thus, input nodes are provided so as to correspond to the arguments of the action value function Q(s t , a t ) in Equation 2 above.
As with the first learning model 40, each running state s is realized by a plurality of values. For example, in FIG. 4, the input corresponding to the accelerator pedal detection amount s1, which is shown as one rectangle, actually corresponds to each of a plurality of values of the accelerator pedal detection amount s1. is provided.
Also, the content a of each operation is realized by a plurality of values, as in the case of the first learning model 40 . For example, in FIG. 4, the output corresponding to accelerator pedal actuation a1, which is shown as one rectangle, is actually provided with an input node so as to correspond to each of a plurality of values of accelerator pedal actuation a1. It is
Each input node stores the value of the running state st at the first time and the content of the operation at at the first time, which are received from the learning data storage unit 34 .

中間層52は、第1中間層52a、第2中間層52b、及び第3中間層52cを備えている。
中間層52の各ノードにおいては、前段の層(例えば、第1中間層52aの場合は入力層51、第2中間層52bの場合は第1中間層52a)の各ノードから、この前段の層の各ノードに格納された値と、前段の層の各ノードから当該中間層52のノードへの重みを基にした演算がなされて、当該中間層52のノード内に演算結果が格納される。
本実施形態においては、この演算において使用される活性化関数は、例えばReLU(Rectified Linear Unit)である。
The intermediate layer 52 includes a first intermediate layer 52a, a second intermediate layer 52b, and a third intermediate layer 52c.
At each node of the intermediate layer 52, from each node of the previous layer (for example, the input layer 51 in the case of the first intermediate layer 52a and the first intermediate layer 52a in the case of the second intermediate layer 52b), this previous layer and the weight from each node of the previous layer to the node of the intermediate layer 52, and the result of the operation is stored in the node of the intermediate layer 52.
In this embodiment, the activation function used in this operation is, for example, ReLU (Rectified Linear Unit).

出力層53においても、中間層52の各々と同様な演算が行われ、出力層53に備えられた出力ノードに演算結果が格納される。本実施形態においては、出力ノードは、例えば1つであり、これが、計算された行動価値関数Q(s、a)の値に相当する。 In the output layer 53 as well, operations similar to those in each of the intermediate layers 52 are performed, and the operation results are stored in output nodes provided in the output layer 53 . In this embodiment, there is, for example, one output node, which corresponds to the value of the calculated action-value function Q(s t , a t ).

第2学習モデル50においても、走行状態sと操作の内容aが入力されて、適切な行動評価関数Qを演算することができるように学習がなされる。この学習においては、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値が調整される。
第2学習モデル50は、次式を損失関数として、これをできるだけ小さくするように学習される。
In the second learning model 50 as well, the driving state s and the operation content a are input, and learning is performed so that an appropriate action evaluation function Q can be calculated. In this learning, the values of the parameters that make up the neural network, such as weights and bias values, are adjusted.
The second learning model 50 uses the following equation as a loss function and is trained to minimize this loss function.

Figure 0007110891000003
Figure 0007110891000003

上式は、第1学習モデル40において説明した、TD誤差に相当する。TD誤差は、第2の時刻における行動価値である、第2の時刻において実行する操作の内容μ(st+1)に対する行動価値関数Qに割引率γを乗算して報酬rt+1を加算した値と、第1の時刻における行動価値Q(s、a)との差分である。このため、TD誤差(の二乗)を最小化することにより、行動価値Q(s、a)として適切な値が出力されるように第1学習モデル40が学習される。
第2学習モデル50においても、第1学習モデル40と同様に、誤差逆伝搬法、確率的勾配降下法等により、数式3として示された損失関数が減る方向に重みやバイアスの値等の、ニューラルネットワークを構成する各パラメータの値を調整することによって、第2学習モデル50は学習される。
The above expression corresponds to the TD error described in the first learning model 40. The TD error is the action value at the second time, which is the value obtained by multiplying the action value function Q for the content μ(s t+1 ) of the operation to be executed at the second time by the discount rate γ and adding the reward r t+1 . , the difference from the action value Q(s t , a t ) at the first time. Therefore, by minimizing (the square of) the TD error, the first learning model 40 is trained such that an appropriate value is output as the action value Q(s t , at ).
In the second learning model 50, as in the first learning model 40, the error back propagation method, the stochastic gradient descent method, etc. are used to reduce the loss function shown in Equation 3, such as weights and bias values. The second learning model 50 is learned by adjusting the values of the parameters that make up the neural network.

このように、本実施形態においては、第1学習モデル40は、操作の内容aに基づいたドライブロボット4の操作の後の、第1の時刻より後の第2の時刻における走行状態st+1に基づいて、燃費と排ガス性能のいずれか一方または双方がより高い操作の内容aであるほど大きな値となるように計算された報酬rt+1を基に、強化学習されている。
また、第1学習モデル40は、報酬rt+1を基に操作の内容aを評価して操作の内容aの評価値Q(s、a)を計算する第2学習モデル50によって計算された、評価値Q(s、a)を基に、評価値Q(s、a)がより高い操作の内容を推論するように学習されている。
更に、第2学習モデル50は、第1学習モデル40により出力された操作の内容aを入力とし、報酬rt+1が大きいほど高い評価値Q(s、a)を出力するように学習され、これら第1学習モデル40と第2学習モデルの学習50が繰り返されることにより、第1学習モデル40と第2学習モデルの学習50は強化学習されている。
Thus, in the present embodiment, the first learning model 40 is based on the driving state s t +1 at the second time after the first time after the operation of the drive robot 4 based on the operation content at. Reinforcement learning is performed based on the reward rt +1 , which is calculated such that the higher the operation content at, the higher the fuel efficiency and/or the exhaust gas performance, the larger the value.
In addition, the first learning model 40 is calculated by the second learning model 50 that evaluates the content of the operation a t based on the reward r t+1 and calculates the evaluation value Q(s t , a t ) of the content of the operation a t Based on the obtained evaluation value Q(s t , a t ), learning is performed so as to infer the content of the operation with the higher evaluation value Q(s t , a t ).
Further, the second learning model 50 receives as input the operation content at output from the first learning model 40, and learns to output a higher evaluation value Q(s t , at ) as the reward r t +1 increases. By repeating the learning 50 of the first learning model 40 and the learning 50 of the second learning model, the learning 50 of the first learning model 40 and the second learning model are reinforced.

以上のように、制御装置10は、操作の内容の学習時においては、学習が中途の状態における第1学習モデル40によって、現在(第1の時刻)の走行状態sにおいて実行すべき操作の内容aを推論する。また、制御装置10は、この操作の内容aを実行した後の時刻(第2の時刻)において、操作の内容aの実行によって変化した走行状態st+1を基に、報酬rt+1を取得する。このようにして、制御装置10は、まず走行データを蓄積する。
蓄積された走行データを基に、第1の時刻の走行状態sと、学習が中途の状態における第1学習モデル40によって推論された操作の内容aを入力として、報酬rt+1を基に、現状の第1学習モデル40の出力となる操作の内容aを適切に評価できるように、第2学習モデル50を学習する。
この学習後の第2学習モデル50を用いて、これが出力する評価値Q(s、a)が大きな操作の内容aを出力するように、第1学習モデル40を学習する。
これにより、第1学習モデル40が出力する操作の内容aが変化するため、再度走行データを蓄積する。
このように、走行データの蓄積と、第1学習モデル40及び第2学習モデル50の学習を繰り返すことで、第1学習モデル40及び第2学習モデル50の学習が完了する。
As described above, when the control device 10 learns the details of the operation, the first learning model 40, which is in the middle of learning, determines the operation to be executed in the current (first time) running state st . Infer the content a t . Further, the control device 10 acquires the reward r t +1 based on the running state s t +1 changed by the execution of the operation content at at the time (second time) after the operation content at is executed. do. In this way, the control device 10 first accumulates travel data.
Based on the accumulated driving data, the driving state s t at the first time and the operation content at inferred by the first learning model 40 in the state where learning is in progress are input, and the reward r t +1 , the second learning model 50 is learned so as to appropriately evaluate the operation content a t that is the output of the current first learning model 40 .
Using the second learning model 50 after learning, the first learning model 40 is learned so that the evaluation value Q(s t , a t ) output by the second learning model 50 outputs the operation content a t with a large value.
As a result , the operation content at output by the first learning model 40 changes, so the travel data is accumulated again.
By repeating the accumulation of travel data and the learning of the first learning model 40 and the second learning model 50 in this manner, the learning of the first learning model 40 and the second learning model 50 is completed.

本実施形態において、制御装置10は、第1学習モデル40及び第2学習モデル50の学習において、例えば、各々の、学習前後における損失関数の差が一定の値以下となった場合に、学習を繰り返したとしてもその効果が十分に見込めないと判断し、学習を終了する。 In the present embodiment, in the learning of the first learning model 40 and the second learning model 50, the control device 10 performs learning, for example, when the difference between the loss functions before and after the learning becomes equal to or less than a certain value. Even if it is repeated, it is judged that the effect cannot be sufficiently expected, and the learning is terminated.

次に、実際に車両2の性能測定に際して操作の内容を推論する場合での、すなわち、第1学習モデル40の強化学習が終了した後における、制御装置10の各構成要素の挙動について説明する。 Next, the behavior of each component of the control device 10 when inferring the details of the operation when actually measuring the performance of the vehicle 2, that is, after the reinforcement learning of the first learning model 40 is completed, will be described.

走行状態取得部22は、現在時点における、車両2の走行状態を取得する。
走行状態取得部22は、車両2に備えられた様々な図示されない計測器やドライブロボット4内に記録された操作実績等から、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速を取得する。
また、走行状態取得部22は、指令車速記憶部21から、指令車速を取得する。
走行状態取得部22は、これらの取得した走行状態を、学習部30へ送信する。
The running state acquisition unit 22 acquires the current running state of the vehicle 2 .
The driving state acquisition unit 22 obtains the accelerator pedal detection amount, the brake pedal detection amount, the engine rotation speed detection amount, and the like from various measuring instruments (not shown) provided in the vehicle 2 and operation results recorded in the drive robot 4. Get vehicle speed.
Also, the running state acquisition unit 22 acquires the command vehicle speed from the command vehicle speed storage unit 21 .
The running state acquisition unit 22 transmits these acquired running states to the learning unit 30 .

学習部30の操作内容推論部31は、ある時刻(第1の時刻)において、走行状態取得部22から走行状態を取得すると、これを基に、学習済みの第1学習モデル40により、第1の時刻より後の車両2の操作の内容aを推論する。
この第1学習モデル40は、操作の内容aに基づいたドライブロボット4の操作の後の、第1の時刻より後の第2の時刻における走行状態sに基づいて、燃費と排ガス性能のいずれか一方または双方がより高い操作の内容aであるほど大きな値となるように計算された報酬rを基に、強化学習されている、学習済みのモデルである。
When the operation content inference unit 31 of the learning unit 30 acquires the running state from the running state acquisition unit 22 at a certain time (first time), the learned first learning model 40 based on this acquires the first The content a of the operation of the vehicle 2 after the time of is inferred.
This first learning model 40 is based on the driving state s at a second time after the first time after the operation of the drive robot 4 based on the content of the operation a, either fuel efficiency or exhaust gas performance. One or both of them is a learned model that undergoes reinforcement learning based on the reward r calculated so that the higher the content a of the operation, the larger the value.

操作内容推論部31は、学習部30によって事前に強化学習されて、重みやバイアスの値等の、ニューラルネットワークを構成する各パラメータの値が調整、決定された、学習済みの第1学習モデル40が、例えばCPU上でプログラムとして実行されることで、車両2の操作の内容aを推論する。
より詳細には、操作内容推論部31が、受信した走行状態sの各々を、学習済みの第1学習モデル40の入力層41の、対応する入力ノードに入力すると、第1学習モデル40は、入力層41から中間層42を介して出力層43へと順に辿りながら、重みやバイアスの値等を用いて重み付け和を演算する処理を実行する。最終的に出力層43の各出力ノードに、第1の時刻以降に実行すべき操作の内容aが格納される。
操作内容推論部31は、推論した操作の内容aを、車両操作制御部23へ送信する。
The operation content inference unit 31 is a learned first learning model 40 in which reinforcement learning is performed in advance by the learning unit 30, and the values of each parameter constituting the neural network, such as weights and bias values, are adjusted and determined. is executed as a program on the CPU, for example, to infer the content a of the operation of the vehicle 2 .
More specifically, when the operation content inference unit 31 inputs each of the received driving states s to the corresponding input nodes of the input layer 41 of the learned first learning model 40, the first learning model 40: A process of calculating a weighted sum using values of weights and biases is executed while sequentially tracing from the input layer 41 to the output layer 43 via the intermediate layer 42 . Finally, each output node of the output layer 43 stores the content a of the operation to be executed after the first time.
The operation content inference unit 31 transmits the inferred operation content a to the vehicle operation control unit 23 .

車両操作制御部23は、操作内容推論部31から操作の内容aを受信し、この操作の内容aに基づき、ステップ周期Tstepの間、ドライブロボット4を操作する。 The vehicle operation control unit 23 receives the operation content a from the operation content inference unit 31, and operates the drive robot 4 during the step period T step based on the operation content a.

次に、図1~図4、及び図5~図7を用いて、上記のドライブロボット4の制御装置10によりドライブロボット4を制御する方法を説明する。図5は、ドライブロボット4の制御方法における、学習時のフローチャートである。図6は、ドライブロボット4の制御方法の、学習時における走行データ収集ステップの、詳細なフローチャートである。図7は、ドライブロボット4の制御方法における、性能測定のために車両2を走行制御させる際のフローチャートである。
本ドライブロボット4の制御方法は、車両2に搭載されて車両2を走行させるドライブロボット4を、車両2が規定された指令車速に従って走行するように制御する、ドライブロボット4の制御方法であって、車両2の走行状態sを取得し、走行状態sは、車両2において検出された車速と、走行状態sが取得された時刻における指令車速を含み、第1の時刻から、第1の時刻より後の車両2の操作の内容aを推論する第1学習モデル40であって、操作の内容aに基づいたドライブロボット4の操作の後の、第1の時刻より後の第2の時刻における走行状態sに基づいて、燃費と排ガス性能のいずれか一方または双方がより高い操作の内容aであるほど大きな値となるように報酬rを計算し、報酬rを基に強化学習された第1学習モデル40により、第1の時刻における走行状態sを基に、車両の操作の内容aを推論し、操作の内容aに基づきドライブロボット4を制御する。
まず、図5、図6を用いて、操作の内容の学習時における動作を説明する。
Next, a method of controlling the drive robot 4 by the control device 10 of the drive robot 4 will be described with reference to FIGS. 1 to 4 and 5 to 7. FIG. FIG. 5 is a flow chart during learning in the control method of the drive robot 4 . FIG. 6 is a detailed flow chart of the travel data collection step during learning in the control method of the drive robot 4 . FIG. 7 is a flow chart for controlling the running of the vehicle 2 for performance measurement in the control method of the drive robot 4 .
This control method of the drive robot 4 is a control method of the drive robot 4 that controls the drive robot 4 that is mounted on the vehicle 2 and causes the vehicle 2 to run according to a prescribed command vehicle speed. , the running state s of the vehicle 2 is acquired, and the running state s includes the vehicle speed detected in the vehicle 2 and the command vehicle speed at the time when the running state s is acquired, and from the first time, from the first time A first learning model 40 for inferring the content a of the subsequent operation of the vehicle 2, and driving at a second time after the first time after the operation of the drive robot 4 based on the content a of the operation. Based on the state s, the reward r is calculated so that the higher the fuel efficiency and/or the exhaust gas performance is, the higher the value of the operation a is, and the first learning is reinforced learning based on the reward r. The model 40 infers the operation content a of the vehicle based on the running state s at the first time, and controls the drive robot 4 based on the operation content a.
First, with reference to FIGS. 5 and 6, the operation during learning of operation details will be described.

学習が開始されると(ステップS1)、走行環境や第1学習モデル40、第2学習モデル50等の各パラメータが初期設定される(ステップS3)。
その後、図6に示される手順に従い、車両2の走行データを収集する(ステップS5)。
When learning is started (step S1), each parameter of the driving environment, the first learning model 40, the second learning model 50, etc. is initialized (step S3).
After that, travel data of the vehicle 2 is collected according to the procedure shown in FIG. 6 (step S5).

既に説明したように、走行データは、一連のデータ収集を行う際における時間単位であるエピソードごとに車両2を走行制御することにより、蓄積される。
エピソードが開始されると(ステップS21)、当該エピソードが開始された時点における、車両2の初期状態を観測する(ステップS23)。エピソードは、車両2が走行制御されている途中において開始される場合もあるため、エピソードの開始時における車両2の初期状態は、車両2が停止している状態はもちろん、走行中の状態をも含み得る。
As already explained, travel data is accumulated by controlling the travel of the vehicle 2 for each episode, which is a unit of time when a series of data is collected.
When an episode starts (step S21), the initial state of the vehicle 2 at the time when the episode starts is observed (step S23). Since an episode may be started while the vehicle 2 is under running control, the initial state of the vehicle 2 at the start of the episode may be not only the state in which the vehicle 2 is stopped but also the state in which it is running. can contain.

初期状態の観測は、次のように行われる。
走行状態取得部22が、現在時点における、車両2の走行状態sを取得する。
走行状態取得部22は、車両2に備えられた様々な図示されない計測器やドライブロボット4内に記録された操作実績等から、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速を取得する。
また、走行状態取得部22は、指令車速記憶部21から、指令車速を取得する。
走行状態取得部22は、これらの取得した走行状態sを、学習部30へ送信する。
Observation of the initial state is performed as follows.
The running state acquisition unit 22 acquires the current running state s of the vehicle 2 .
The driving state acquisition unit 22 obtains the accelerator pedal detection amount, the brake pedal detection amount, the engine rotation speed detection amount, and the like from various measuring instruments (not shown) provided in the vehicle 2 and operation results recorded in the drive robot 4. Get vehicle speed.
Also, the running state acquisition unit 22 acquires the command vehicle speed from the command vehicle speed storage unit 21 .
The running state acquisition unit 22 transmits the acquired running state s to the learning unit 30 .

操作内容推論部31は、走行状態取得部22から、走行状態sを受信する。操作内容推論部31は、走行状態sを受信した時刻を第1の時刻として、受信した走行状態sを基に、学習中の第1学習モデル40により、第1の時刻より後の車両2の操作の内容を推論する(ステップS25)。
より詳細には、操作内容推論部31は、走行状態sを、第1学習モデル40の入力層41の、各走行状態sに対応する入力ノードに入力する。
中間層42の各ノードにおいては、前段の層(例えば、第1中間層42aの場合は入力層41、第2中間層42bの場合は第1中間層42a)の各ノードから、この前段の層の各ノードに格納された値と、前段の層の各ノードから当該中間層42のノードへの重みを基にした演算がなされて、当該中間層42のノード内に演算結果が格納される。
出力層43においても、中間層42の各々と同様な演算が行われ、出力層43に備えられた各出力ノードに演算結果、すなわち操作の内容aが格納される。
The operation content inference unit 31 receives the running state s from the running state acquisition unit 22 . Using the time at which the driving state s is received as a first time, the operation content inference unit 31 uses the first learning model 40 that is learning based on the received driving state s to predict the vehicle 2 after the first time. The content of the operation is inferred (step S25).
More specifically, the operation content inference unit 31 inputs the running state s to the input node corresponding to each running state s in the input layer 41 of the first learning model 40 .
At each node of the intermediate layer 42, from each node of the previous layer (for example, the input layer 41 in the case of the first intermediate layer 42a, and the first intermediate layer 42a in the case of the second intermediate layer 42b), this previous layer and the weight from each node of the previous layer to the node of the intermediate layer 42, and the result of the operation is stored in the node of the intermediate layer 42.
In the output layer 43 as well, operations similar to those in each of the intermediate layers 42 are performed, and each output node provided in the output layer 43 stores the operation result, that is, the content a of the operation.

操作内容推論部31は、この、現在の学習中の第1学習モデル40が推論した操作の内容aを、ドライブロボット制御部20の車両操作制御部23へ送信する。
この操作の内容aに基づき、車両操作制御部23はステップ周期Tstepの間、ドライブロボット4を操作する。
そして、走行状態取得部22は、操作後の車両2の走行状態sを、ステップS23と同様な要領で、再度取得する。
走行状態取得部22は、操作後の車両2の走行状態sを、学習部30へ送信する。
The operation content inference unit 31 transmits the operation content a inferred by the first learning model 40 currently being learned to the vehicle operation control unit 23 of the drive robot control unit 20 .
Based on this operation content a, the vehicle operation control unit 23 operates the drive robot 4 during the step period T step .
Then, the running state acquisition unit 22 acquires again the running state s of the vehicle 2 after the operation in the same manner as in step S23.
The running state acquisition unit 22 transmits the running state s of the vehicle 2 after the operation to the learning unit 30 .

操作内容推論部31は、走行状態取得部22から、走行状態sを受信する。操作内容推論部31は、走行状態を受信した時刻を、第1の時刻より後の第2の時刻として、第1の時刻における走行状態s、これに対して推論され実際に実行された操作の内容a、及び第2の時刻における走行状態st+1を、報酬計算部32に送信する。
報酬計算部32は、強化学習に際し必要となる値である報酬rt+1を計算して、操作内容推論部31に送信する。
操作内容推論部31は、報酬rt+1を受信する(ステップS27)。
操作内容推論部31は、第1の時刻における走行状態s、操作の内容a、第2の時刻における走行状態st+1と、及び受信した報酬rt+1の組み合わせを、学習用データ記憶部34へ送信し、記憶する(ステップS29)。
The operation content inference unit 31 receives the running state s from the running state acquisition unit 22 . The operation content inference unit 31 regards the time at which the running state was received as a second time after the first time, the running state s t at the first time, and the operation that was inferred and actually executed for this. and the running state s t +1 at the second time to the remuneration calculation unit 32 .
The reward calculator 32 calculates a reward rt+1, which is a value required for reinforcement learning, and transmits the calculated reward rt +1 to the operation content inference unit 31 .
The operation content inference unit 31 receives the reward r t+1 (step S27).
The operation content inference unit 31 stores a combination of the running state s t at the first time, the operation content a t , the running state s t+1 at the second time, and the received reward r t+1 in the learning data storage unit 34 . and stored (step S29).

学習部30は、エピソードが終了したか否かを判定する(ステップS31)。エピソードが終了したと判定した場合には(ステップS31のYes)、エピソードを終了させて(ステップS33)、図5に示されるステップS7へと遷移する。
エピソードが終了していないと判定した場合には(ステップS31のNo)、第2の時刻を第1の時刻とし、第2の時刻における走行状態st+1を第1の時刻における走行状態sと更新したうえで、ステップS25へ遷移し、この新たな第1の時刻における操作の内容aの推論を行う。このように、各時刻において、操作の内容aの推論、推論した操作の内容aを実行した後の状態の取得、これに基づく報酬の計算を繰り返すことにより、制御装置10は、走行データを学習用データ記憶部34に蓄積する。
The learning unit 30 determines whether the episode has ended (step S31). If it is determined that the episode has ended (Yes in step S31), the episode is ended (step S33), and the process proceeds to step S7 shown in FIG.
If it is determined that the episode has not ended (No in step S31), the second time is set as the first time, and the running state s t+1 at the second time is set as the running state s t at the first time. After updating, the process proceeds to step S25 to infer the content a of the operation at the new first time. In this way, at each time, the controller 10 repeats the inference of the operation content a, the acquisition of the state after executing the inferred operation content a, and the calculation of the reward based on this, so that the control device 10 learns the driving data. stored in the data storage unit 34 for use.

十分な走行データが学習用データ記憶部34に蓄積されると、これを用いて、第1学習モデル40と第2学習モデル50を強化学習し、学習モデル40、50を更新する(ステップS7)。
まず、蓄積された走行データを基に、第1の時刻の走行状態sと、学習が中途の状態における第1学習モデル40によって推論された操作の内容aを入力として、現状の第1学習モデル40の出力となる操作の内容aを適切に評価できるように、第2学習モデル50を学習する。
When sufficient driving data is accumulated in the learning data storage unit 34, the first learning model 40 and the second learning model 50 are subjected to reinforcement learning to update the learning models 40 and 50 (step S7). .
First, based on the accumulated driving data, the driving state s t at the first time and the contents of the operation at inferred by the first learning model 40 in the state in which the learning is in progress are input. The second learning model 50 is learned so as to appropriately evaluate the operation content at, which is the output of the learning model 40 .

強化学習部33は、第1の時刻の走行状態sと操作の内容aを、第2学習モデル50の入力層51の、各走行状態s及び操作の内容aに対応する入力ノードに入力する。
中間層52の各ノードにおいては、前段の層(例えば、第1中間層52aの場合は入力層51、第2中間層52bの場合は第1中間層52a)の各ノードから、この前段の層の各ノードに格納された値と、前段の層の各ノードから当該中間層52のノードへの重みを基にした演算がなされて、当該中間層52のノード内に演算結果が格納される。
出力層53においても、中間層52の各々と同様な演算が行われ、出力層53に備えられた出力ノードに演算結果、すなわち行動価値関数Q(s、a)の値が格納される。
The reinforcement learning unit 33 inputs the running state s t and the operation content a t at the first time to the input node corresponding to each running state s and the operation content a of the input layer 51 of the second learning model 50 . do.
At each node of the intermediate layer 52, from each node of the previous layer (for example, the input layer 51 in the case of the first intermediate layer 52a and the first intermediate layer 52a in the case of the second intermediate layer 52b), this previous layer and the weight from each node of the previous layer to the node of the intermediate layer 52, and the result of the operation is stored in the node of the intermediate layer 52.
In the output layer 53, the same calculation as in each of the intermediate layers 52 is performed, and the calculation result, that is, the value of the action-value function Q(s t , at ) is stored in the output node provided in the output layer 53. .

強化学習部33は、既に説明した数式3を損失関数として、これをできるだけ小さくするように、第2学習モデル50を学習させる。すなわち、第2学習モデル50は、誤差逆伝搬法、確率的勾配降下法等により、数式3として示された損失関数が減る方向に重みやバイアスの値等の、ニューラルネットワークを構成する各パラメータの値を調整することによって学習される。 The reinforcement learning unit 33 learns the second learning model 50 so as to minimize the loss function, using the already explained Equation 3 as the loss function. That is, the second learning model 50 uses the error backpropagation method, the stochastic gradient descent method, or the like to reduce the loss function shown in Equation 3, such as weights and bias values, which make up the neural network. Learned by adjusting the value.

この時点において学習用データ記憶部34に蓄積されているデータによる、第2学習モデル50の更新が終了すると、第1学習モデル40を学習させる。
強化学習部33は、「-Q(s、μ(s))」の値を損失関数とし、これをできるだけ小さくする操作の内容aを出力するように、第1学習モデル40を学習させる。すなわち、第1学習モデル40は、誤差逆伝搬法、確率的勾配降下法等により、この損失関数が減る方向に重みやバイアスの値等の、ニューラルネットワークを構成する各パラメータの値を調整することによって学習される。
After updating the second learning model 50 with the data accumulated in the learning data storage unit 34 at this point, the first learning model 40 is learned.
The reinforcement learning unit 33 learns the first learning model 40 so that the value of “−Q(s t , μ(s t ))” is set as a loss function and the content of the operation at which makes this as small as possible is output. Let That is, the first learning model 40 adjusts the values of the parameters that make up the neural network, such as weights and bias values, in the direction in which the loss function decreases, using the error back propagation method, the stochastic gradient descent method, or the like. learned by

第1学習モデル40と第2学習モデル50の更新が終了すると、これら第1学習モデル40と第2学習モデル50の学習が終了したか否かを判定する(ステップS9)。
学習が終了していないと判定された場合には(ステップS9のNo)、ステップS5へ遷移する。すなわち、制御装置10は走行データを更に収集し、これを用いた第1学習モデル40と第2学習モデル50の更新を繰り返す。
学習が終了したと判定された場合には(ステップS9のYes)、学習処理を終了する(ステップS11)。
When the updating of the first learning model 40 and the second learning model 50 is finished, it is determined whether or not the learning of the first learning model 40 and the second learning model 50 is finished (step S9).
If it is determined that learning has not ended (No in step S9), the process proceeds to step S5. That is, the control device 10 further collects travel data, and repeats updating of the first learning model 40 and the second learning model 50 using this data.
If it is determined that the learning has ended (Yes in step S9), the learning process ends (step S11).

次に、図7を用いて、実際に車両2の性能測定に際して操作の内容を推論する場合での、すなわち、第1学習モデル40の強化学習が終了した後において、車両2を走行制御する際の動作について説明する。 Next, with reference to FIG. 7, when inferring the details of the operation when actually measuring the performance of the vehicle 2, that is, after the reinforcement learning of the first learning model 40 is completed, when controlling the vehicle 2, operation will be described.

車両2が走行を開始すると(ステップS51)、走行環境が初期設定され、この時点での走行状態sを初期状態として観測する(ステップS53)。
走行状態sの観測は、次のように行われる。
走行状態取得部22が、現在時点における、車両2の走行状態sを取得する。
走行状態取得部22は、車両2に備えられた様々な図示されない計測器やドライブロボット4内に記録された操作実績等から、アクセルペダル検出量、ブレーキペダル検出量、エンジン回転数検出量、検出車速を取得する。
また、走行状態取得部22は、指令車速記憶部21から、指令車速を取得する。
走行状態取得部22は、これらの取得した走行状態sを、学習部30へ送信する。
When the vehicle 2 starts running (step S51), the running environment is initialized, and the running state s at this time is observed as the initial state (step S53).
Observation of the running state s is performed as follows.
The running state acquisition unit 22 acquires the current running state s of the vehicle 2 .
The driving state acquisition unit 22 obtains the accelerator pedal detection amount, the brake pedal detection amount, the engine rotation speed detection amount, and the like from various measuring instruments (not shown) provided in the vehicle 2 and operation results recorded in the drive robot 4. Get vehicle speed.
Also, the running state acquisition unit 22 acquires the command vehicle speed from the command vehicle speed storage unit 21 .
The running state acquisition unit 22 transmits the acquired running state s to the learning unit 30 .

操作内容推論部31は、走行状態取得部22から、走行状態sを受信する。操作内容推論部31は、走行状態sを受信した時刻を第1の時刻として、受信した走行状態sを基に、学習済みの第1学習モデル40により、第1の時刻より後の車両2の操作の内容を推論する(ステップS55)。
より詳細には、操作内容推論部31は、受信した走行状態sの各々を、学習済みの第1学習モデル40の入力層41の、対応する入力ノードに入力すると、入力層41から中間層42を介して出力層43へと順に辿りながら、重みやバイアスの値等を用いて重み付け和を演算する処理を実行する。最終的に出力層43の各出力ノードに、第1の時刻以降に実行すべき操作の内容aが格納される。
操作内容推論部31は、推論した操作の内容aを、車両操作制御部23へ送信する。
The operation content inference unit 31 receives the running state s from the running state acquisition unit 22 . Using the time at which the driving state s is received as a first time, the operation content inference unit 31 uses the learned first learning model 40 based on the received driving state s to predict the state of the vehicle 2 after the first time. The content of the operation is inferred (step S55).
More specifically, when the operation content inference unit 31 inputs each of the received driving states s to the corresponding input nodes of the input layer 41 of the first learning model 40 that has been learned, the input layer 41 to the intermediate layer 42 While sequentially tracing to the output layer 43 via , a process of calculating a weighted sum using weights, bias values, and the like is executed. Finally, each output node of the output layer 43 stores the content a of the operation to be executed after the first time.
The operation content inference unit 31 transmits the inferred operation content a to the vehicle operation control unit 23 .

操作内容推論部31は、この、学習済みの第1学習モデル40が推論した操作の内容aを、ドライブロボット制御部20の車両操作制御部23へ送信する。
この操作の内容aに基づき、車両操作制御部23はステップ周期Tstepの間、ドライブロボット4を操作する。
そして、走行状態取得部22は、操作後の車両2の走行状態sを、ステップS53と同様な要領で、再度取得する(ステップS57)。
走行状態取得部22は、操作後の車両2の走行状態sを、学習部30へ送信する。
The operation content inference unit 31 transmits the operation content a inferred by the learned first learning model 40 to the vehicle operation control unit 23 of the drive robot control unit 20 .
Based on this operation content a, the vehicle operation control unit 23 operates the drive robot 4 during the step period T step .
Then, the running state acquisition unit 22 acquires again the running state s of the vehicle 2 after the operation in the same manner as in step S53 (step S57).
The running state acquisition unit 22 transmits the running state s of the vehicle 2 after the operation to the learning unit 30 .

制御装置10は、車両2の走行が終了したか否かを判定する(ステップS59)。
走行が終了していないと判定された場合には(ステップS59のNo)、ステップS55へ遷移する。すなわち、制御装置10は、ステップS57で取得した走行状態sを基にした操作の内容aの推論と、更なる走行状態sの観測を繰り返す。
走行が終了したと判定された場合には(ステップS59のYes)、走行処理を終了する(ステップS61)。
The control device 10 determines whether or not the vehicle 2 has finished traveling (step S59).
If it is determined that the vehicle has not finished running (No in step S59), the process proceeds to step S55. That is, the control device 10 repeats the inference of the operation content a based on the running state s acquired in step S57 and the observation of the further running state s.
If it is determined that the vehicle has finished traveling (Yes in step S59), the traveling process is terminated (step S61).

次に、上記のドライブロボットの制御装置及び制御方法の効果について説明する。 Next, the effects of the drive robot control device and control method described above will be described.

本実施形態におけるドライブロボット(自動操縦ロボット)の制御装置10は、車両2に搭載されて車両2を走行させるドライブロボット4を、車両2が規定された指令車速に従って走行するように制御する、ドライブロボット4の制御装置10であって、車両2の走行状態sを取得する走行状態取得部22と、第1の時刻における走行状態sを基に、第1学習モデル40により、第1の時刻より後の車両2の操作の内容aを推論する操作内容推論部31と、操作の内容aに基づきドライブロボット4を制御する車両操作制御部23と、を備え、走行状態sは、車両2において検出された車速と、走行状態sが取得された時刻における指令車速を含み、第1学習モデル40は、操作の内容aに基づいたドライブロボット4の操作の後の、第1の時刻より後の第2の時刻における走行状態st+1に基づいて、燃費と排ガス性能のいずれか一方または双方がより高い操作の内容aであるほど大きな値となるように計算された報酬rt+1を基に、強化学習されている。
上記のような構成によれば、車両2の操作の内容aを推論する操作内容推論部31において、第1学習モデル40は、燃費と排ガス性能がより高い操作の内容aであるほど大きな値となるように計算された報酬rt+1を基に、強化学習されている。したがって、操作内容推論部31は、燃費や排ガス性能が考慮された操作の内容aを推論することができるため、ドライブロボット4に、燃費や排ガス性能を考慮して車両2を操作させることができる。
また、第1学習モデル40が操作の内容を推論するに際し基づく、車両2の走行状態sは、走行状態sが取得された時刻における指令車速を含むため、指令車速に高精度で追従するような操作の内容aを推論可能である。
したがって、指令車速に高い精度で追従させつつ、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置10を提供可能である。
A control device 10 for a drive robot (autopilot robot) according to the present embodiment controls a drive robot 4 mounted on a vehicle 2 to drive the vehicle 2 so that the vehicle 2 runs according to a prescribed command vehicle speed. In the control device 10 of the robot 4, a running state acquisition unit 22 that acquires the running state s of the vehicle 2, and a first learning model 40 based on the running state s at the first time, the first time An operation content inference unit 31 for inferring the operation content at of the vehicle 2 later, and a vehicle operation control unit 23 for controlling the drive robot 4 based on the operation content at. 2, and the commanded vehicle speed at the time when the driving state s was acquired, the first learning model 40 is the first time after the operation of the drive robot 4 based on the operation content at. Based on the driving state s t+1 at a later second time, the reward r t +1 calculated so that the higher the content of operation at, the higher the fuel efficiency and/or the exhaust gas performance, the higher the value r t+1. Reinforcement learning is based on it.
According to the configuration described above, in the operation content inference unit 31 that infers the operation content at of the vehicle 2, the first learning model 40 increases as the operation content at increases in fuel efficiency and exhaust gas performance. Reinforcement learning is performed based on the reward r t+1 calculated to be the value. Therefore, since the operation content inference unit 31 can infer the operation content at in consideration of fuel consumption and exhaust gas performance, it is possible to cause the drive robot 4 to operate the vehicle 2 in consideration of fuel consumption and exhaust gas performance. can.
In addition, since the running state st of the vehicle 2 based on which the first learning model 40 infers the details of the operation includes the commanded vehicle speed at the time when the running state st is acquired, the commanded vehicle speed is followed with high accuracy. It is possible to infer the content of such an operation at.
Therefore, it is possible to provide the control device 10 for the drive robot 4 that allows the vehicle 2 to be operated in consideration of fuel consumption and exhaust gas performance while following the commanded vehicle speed with high accuracy.

強化学習以外の機械学習、例えば教師あり学習等において、燃費や排ガス性能を考慮してドライブロボット4が車両2を制御するような学習モデルを生成する際には、実際に車両2を、燃費や排ガス性能が良好となるように走行させて、燃費や排ガス性能が良好な走行データを取得し、これを教師データとして学習させることが考えられる。このように、例えば教師あり学習においては、学習する対象はあくまで与えられた教師データであり、燃費や排ガス性能は、この走行データの学習に付随して、間接的に改善される。すなわち、例えば教師あり学習においては、燃費や排ガス性能の向上を直接的な目標として学習することができない。このため、与えられた教師データ以上に燃費や排ガス性能が良好に改善されるような操作の内容が実際にはあったとしても、これを推論することが容易ではない。
これに対し、本実施形態においては、操作の内容aに関して燃費や排ガス性能が良好か否かの程度を明確な値として有する報酬rを基に、燃費や排ガス性能が良好な操作の内容aを推論するように、第1学習モデル40が強化学習されている。すなわち、本実施形態においては、第1学習モデル40は強化学習により学習されているため、燃費や排ガス性能を向上させることを明示的な目標として、第1学習モデル40が操作の内容aを推論することができる。このため、教師あり学習等の他の機械学習を適用した形態と比較しても、より良好な燃費や排ガス性能となるような操作の内容aを推論し得る。
In machine learning other than reinforcement learning, such as supervised learning, when generating a learning model in which the drive robot 4 controls the vehicle 2 in consideration of fuel consumption and exhaust gas performance, the vehicle 2 is actually controlled by It is conceivable to drive the vehicle so that the exhaust gas performance is good, acquire driving data with good fuel efficiency and exhaust gas performance, and use this as teaching data for learning. In this way, for example, in supervised learning, the subject of learning is strictly given teacher data, and fuel efficiency and exhaust gas performance are indirectly improved in association with learning of this travel data. In other words, for example, in supervised learning, learning cannot be performed with the direct goal of improving fuel efficiency or exhaust gas performance. For this reason, even if there is actually an operation content that improves fuel efficiency and exhaust gas performance better than given teaching data, it is not easy to infer this.
On the other hand, in the present embodiment, based on the remuneration r having a clear value indicating whether or not the fuel consumption and exhaust gas performance are good for the operation content a, the operation content a with good fuel economy and exhaust gas performance is determined. As inferred, the first learning model 40 has been reinforcement learned. That is, in the present embodiment, since the first learning model 40 is learned by reinforcement learning, the first learning model 40 infers the operation content a with an explicit goal of improving fuel efficiency and exhaust gas performance. can do. For this reason, it is possible to infer the details of the operation a that will result in better fuel consumption and exhaust gas performance, even when compared with a mode in which other machine learning such as supervised learning is applied.

また、操作の対象は、アクセルペダル2cとブレーキペダル2dを含み、走行状態sは、アクセルペダル2cとブレーキペダル2dの検出量を含む。
上記のような構成によれば、車両2の操作において、燃費や排ガス性能と密接に関連するアクセルペダル2cとブレーキペダル2dの検出量を走行状態sに含めているため、適切に報酬rを計算し、結果として、第1学習モデル40によって適切に操作の内容aを推論することができる。したがって、より効果的に、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
Further, the objects to be operated include the accelerator pedal 2c and the brake pedal 2d, and the running state s includes the detected amounts of the accelerator pedal 2c and the brake pedal 2d.
According to the configuration as described above, in the operation of the vehicle 2, since the detection amounts of the accelerator pedal 2c and the brake pedal 2d, which are closely related to the fuel efficiency and exhaust gas performance, are included in the driving state s, the reward r is appropriately calculated. As a result, the first learning model 40 can appropriately infer the content a of the operation. Therefore, it is possible to provide a control device for the drive robot 4 that can operate the vehicle 2 more effectively in consideration of fuel consumption and exhaust gas performance.

また、アクセルペダル2c及びブレーキペダル2dの検出量の変化が小さいほど値が大きくなるように設定された第1要素rAP、rBPが計算され、第1要素rAP、rBPを基に報酬rt+1が計算されている。
上記のような構成によれば、燃費や排ガス性能が良好であると考えられる、アクセルペダル2c及びブレーキペダル2dの検出量の変化が小さい場合に、第1要素rAP、rBPの値が小さくなるように計算され、これを基に報酬rt+1が計算されるため、適切に報酬rt+1の値を設定することができる。したがって、より効果的に、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
Also, the first elements r AP and r BP are calculated so that the smaller the change in the detected amount of the accelerator pedal 2c and the brake pedal 2d, the larger the value, and the reward is calculated based on the first elements r AP and r BP . r t+1 has been calculated.
According to the configuration described above, when changes in the detected amounts of the accelerator pedal 2c and the brake pedal 2d are small, which is considered to be good fuel efficiency and exhaust gas performance, the values of the first elements r AP and r BP are small. Since the reward r t+1 is calculated based on this, the value of the reward r t+1 can be appropriately set. Therefore, it is possible to provide a control device for the drive robot 4 that can operate the vehicle 2 more effectively in consideration of fuel consumption and exhaust gas performance.

また、時間軸と、アクセルペダル2cまたはブレーキペダル2dの検出量を軸とする座標系上で、検出量を関数として表現した際に、関数の一階微分または二階微分の値を基に、第1要素rAP、rBPが計算されている。
上記のような構成によれば、アクセルペダル2cまたはブレーキペダル2dの検出量の変化量は、これら検出量を表現した関数の一階微分または二階微分の値に密接に関連する。すなわち、検出量を表現した関数の一階微分または二階微分の値を基に第1要素rAP、rBPを計算することにより、適切に報酬rt+1の値を設定することができる。したがって、より効果的に、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
In addition, when the detected amount is expressed as a function on a coordinate system having the time axis and the detected amount of the accelerator pedal 2c or the brake pedal 2d as axes, the first derivative or the second derivative of the function is obtained. 1-element r AP , r BP have been calculated.
According to the configuration described above, the amount of change in the detected amount of the accelerator pedal 2c or the brake pedal 2d is closely related to the value of the first-order differential or the second-order differential of the function expressing these detected amounts. That is, the value of the reward r t+1 can be set appropriately by calculating the first elements r AP and r BP based on the value of the first-order differential or second-order differential of the function expressing the detected quantity. Therefore, it is possible to provide a control device for the drive robot 4 that can operate the vehicle 2 more effectively in consideration of fuel consumption and exhaust gas performance.

また、関数の一階微分または二階微分の最大値の絶対値が所定の閾値以下であれば、第1要素rAP、rBPが正の値となるように、かつ、最大値の絶対値が所定の閾値よりも大きければ、第1要素rAP、rBPが負の値となるように、第1要素rAP、rBPが計算されている。
上記のような構成によれば、関数の一階微分または二階微分の最大値の絶対値が所定の閾値以下であれば、アクセルペダル2cまたはブレーキペダル2dの検出量の変化量が小さく燃費や排ガス性能が良好であると考えられる。この場合には、第1要素rAP、rBPが正の値となるように計算される。また、関数の一階微分または二階微分の最大値の絶対値が所定の閾値以上であれば、アクセルペダル2cまたはブレーキペダル2dの検出量の変化量が大きく燃費や排ガス性能が良好ではないと考えられる。この場合には、第1要素rAP、rBPが負の値となるように計算される。
このように、燃費や排ガス性能が良好である場合に値が大きくなるように第1要素rAP、rBPが計算され、これを基に報酬rt+1が計算されるため、適切に報酬rt+1の値を設定することができる。したがって、より効果的に、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
Further, if the absolute value of the maximum value of the first-order derivative or the second-order derivative of the function is equal to or less than a predetermined threshold, the first elements r AP and r BP are positive values, and the absolute value of the maximum value is The first elements r AP and r BP are calculated such that the first elements r AP and r BP are negative values if they are larger than a predetermined threshold.
According to the above configuration, if the absolute value of the maximum value of the first-order differential or second-order differential of the function is equal to or less than the predetermined threshold value, the amount of change in the detected amount of the accelerator pedal 2c or the brake pedal 2d is small, and fuel consumption and exhaust gas are reduced. Performance is considered good. In this case, the first elements r AP and r BP are calculated to be positive values. Further, if the absolute value of the maximum value of the first-order differential or second-order differential of the function is equal to or greater than a predetermined threshold, it is considered that the amount of change in the detected amount of the accelerator pedal 2c or the brake pedal 2d is large and the fuel efficiency and exhaust gas performance are not good. be done. In this case, the first elements r AP and r BP are calculated to be negative values.
In this way, the first elements r AP and r BP are calculated so that the values are large when the fuel efficiency and exhaust gas performance are good, and the reward r t+1 is calculated based on this, so the reward r t +1 is appropriately calculated. can be set. Therefore, it is possible to provide a control device for the drive robot 4 that can operate the vehicle 2 more effectively in consideration of fuel consumption and exhaust gas performance.

また、操作の内容aに基づいたドライブロボット4の操作の後の、第2の時刻における検出車速と指令車速との差が小さいほど値が大きくなるように設定された第2要素rが計算され、第2要素rを基に報酬rt+1が計算されている。
上記のような構成によれば、検出車速と指令車速との差が小さいほど値が大きくなるように第2要素rが計算されるため、指令車速への追従性が高いほど、第2要素rが大きな値を有し得る。報酬rt+1は、このような第2要素rを基に計算されているため、指令車速に高い精度で追従させるように車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
Also, a second element rs is calculated, which is set so that the smaller the difference between the detected vehicle speed and the commanded vehicle speed at the second time after the operation of the drive robot 4 based on the operation content a, the larger the value. and the reward r t+1 is calculated based on the second element r s .
According to the above configuration, the second element rs is calculated such that the smaller the difference between the detected vehicle speed and the commanded vehicle speed, the larger the value of the second element rs. r s can have a large value. Since the reward r t+1 is calculated based on such a second element r s , it is possible to provide a control device for the drive robot 4 that can operate the vehicle 2 so as to follow the commanded vehicle speed with high accuracy. .

また、操作内容推論部31は、第1の時刻以降の時間範囲内の、複数の時刻における操作の内容aを推論する。
上記のような構成によれば、一度の推論で複数の操作の内容を推論するため、操作間隔を推論に要する時間よりも短くすることができる。このため、緻密な操作が可能となる。
また、推論により、実際には使用されないほど将来の操作の内容をも推論することができる。この場合においては、将来を見越した操作の内容aを推論することができるため、操作の内容aの精度が向上し、より効果的に、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。
Further, the operation content inference unit 31 infers the operation content a at a plurality of times within the time range after the first time.
According to the configuration as described above, since the contents of a plurality of operations are inferred in one inference, the operation interval can be made shorter than the time required for the inference. For this reason, precise operation becomes possible.
Inference can also infer the content of future operations to the extent that they are not actually used. In this case, since it is possible to infer the content a of the operation in anticipation of the future, the accuracy of the content a of the operation is improved, and the vehicle 2 can be operated more effectively in consideration of fuel consumption and exhaust gas performance. , the control device for the drive robot 4 can be provided.

また、第1学習モデル40は、報酬rt+1を基に操作の内容aを評価して操作の内容aの評価値Q(s、a)を計算する第2学習モデル50によって計算された、評価値Q(s、a)を基に、評価値Q(s、a)がより高い操作の内容aを推論するように学習されている。
上記のような構成によれば、報酬rt+1を基にした評価値Q(s、a)の計算を、関数近似器としての第2学習モデル50によって計算している。このため、評価値Q(s、a)の計算が容易となる。
In addition, the first learning model 40 is calculated by the second learning model 50 that evaluates the content of the operation a t based on the reward r t+1 and calculates the evaluation value Q(s t , a t ) of the content of the operation a t Based on the obtained evaluation value Q(s t , a t ), it is learned to infer the content a of the operation with the higher evaluation value Q(s t , a t ).
According to the above configuration, the evaluation value Q(s t , at ) based on the reward r t +1 is calculated by the second learning model 50 as a function approximator. This facilitates calculation of the evaluation value Q(s t , a t ).

また、第2学習モデル50は、第1学習モデル40により出力された操作の内容aを入力とし、報酬rt+1が大きいほど高い評価値Q(s、a)を出力するように学習され、これら第1学習モデル40と第2学習モデル50の学習が繰り返されることにより、第1学習モデル40と第2学習モデル50は強化学習されている。
上記のような構成によれば、第1の時刻の走行状態sと、学習が中途の状態における第1学習モデル40によって推論された操作の内容aを入力として、現状の第1学習モデル40の出力となる操作の内容aを適切に評価できるように、第2学習モデル50を学習し、この学習後の第2学習モデル50を用いて、これが出力する評価値Q(s、a)が大きくなるように、第1学習モデル40を学習することを繰り返して、第1学習モデル40及び第2学習モデル50を学習させることができる。したがって、第1学習モデル40及び第2学習モデル50を効果的に学習させることができる。
Further, the second learning model 50 receives as input the operation content at output from the first learning model 40, and learns to output a higher evaluation value Q(s t , at ) as the reward r t +1 increases. By repeating the learning of these first learning model 40 and second learning model 50, the first learning model 40 and second learning model 50 undergo reinforcement learning.
According to the configuration as described above, the current first learning model 40 receives as input the running state s t at the first time and the operation content a t inferred by the first learning model 40 in the state in which learning is in progress. The second learning model 50 is trained so that the content of operation a t that is the output of 40 can be appropriately evaluated, and the second learning model 50 after this learning is used to obtain the evaluation value Q(s t , The first learning model 40 and the second learning model 50 can be learned by repeating the learning of the first learning model 40 such that a t ) increases. Therefore, the first learning model 40 and the second learning model 50 can be effectively learned.

[実施形態の変形例]
次に、図8を用いて、上記実施形態として示したドライブロボットの制御装置及び制御方法の変形例を説明する。図8は、本変形例におけるドライブロボットの制御装置のブロック図である。本変形例におけるドライブロボット4の制御装置60は、上記実施形態のドライブロボット4の制御装置10とは、ドライブロボット制御部61が、学習部30の、学習が終了した時点における、操作内容推論部31及び第1学習モデル40と同じ構成の、操作内容推論部31A及び第1学習モデル40Aを備えている点が異なっている。
[Modification of Embodiment]
Next, with reference to FIG. 8, a modified example of the control device and control method for the drive robot shown as the above embodiment will be described. FIG. 8 is a block diagram of the control device for the drive robot in this modified example. The control device 60 of the drive robot 4 in this modified example is different from the control device 10 of the drive robot 4 in the above-described embodiment. 31 and the first learning model 40 in that an operation content inference unit 31A and a first learning model 40A having the same configurations as those of the first learning model 40 are provided.

本変形例においては、第1学習モデル40及び第2学習モデル50の学習時においては、上記実施形態と同様な構成となっている。これら第1学習モデル40及び第2学習モデル50の学習が終了した後に、操作内容推論部31及び第1学習モデル40が、操作内容推論部31A及び第1学習モデル40Aとしてドライブロボット制御部61の中に複製されている。
実際に車両2の性能測定に際して操作の内容aを推論する場合においては、ドライブロボット制御部61内の操作内容推論部31Aが、第1学習モデル40Aを使用して操作の内容aを推論する。
In this modified example, the configuration during learning of the first learning model 40 and the second learning model 50 is the same as that of the above-described embodiment. After the learning of the first learning model 40 and the second learning model 50 is completed, the operation content inference unit 31 and the first learning model 40 are used as the operation content inference unit 31A and the first learning model 40A for the drive robot control unit 61. reproduced inside.
When actually inferring the operation content a when measuring the performance of the vehicle 2, the operation content inference unit 31A in the drive robot control unit 61 infers the operation content a using the first learning model 40A.

本変形例が、既に説明した実施形態と同様な効果を奏することは言うまでもない。
特に、本変形例の構成においては、実際に車両2の性能測定に際して操作の内容aを推論する場合における処理が、ドライブロボット制御部61の内部だけで完結されており、ドライブロボット制御部61が学習部30と通信する必要がない。
It goes without saying that this modification has the same effect as the embodiment already described.
In particular, in the configuration of this modified example, the processing for inferring the operation content a when actually measuring the performance of the vehicle 2 is completed only within the drive robot control unit 61, and the drive robot control unit 61 There is no need to communicate with the learning section 30 .

なお、本発明のドライブロボットの制御装置及び制御方法は、図面を参照して説明した上述の実施形態及び変形例に限定されるものではなく、その技術的範囲において他の様々な変形例が考えられる。 It should be noted that the drive robot control device and control method of the present invention are not limited to the above-described embodiments and modifications described with reference to the drawings, and other various modifications can be conceived within the technical scope thereof. be done.

例えば、上記実施形態においては、報酬には、燃費と排ガス性能の双方がより高い操作の内容であるほど大きな値となるように計算されていたが、これに限られず、燃費と排ガス性能のいずれか一方がより高い操作の内容であるほど大きな値となるように計算されていてもよい。
例えば、燃費の値を測定または計算し、燃費の性能が高いほど値が大きくなるように設定された第3要素を計算し、これを基に、燃費が良い操作の内容であるほど大きな値となるように、報酬を計算するようにしてもよい。これにより、燃費のみが報酬に反映され得る。
あるいは、例えば、排ガス性能の値を測定または計算し、排ガス性能が高いほど値が大きくなるように設定された第4要素を計算し、これを基に、排ガス性能が良い操作の内容であるほど大きな値となるように、報酬を計算するようにしてもよい。これにより、排ガス性能のみが報酬に反映され得る。排ガス性能を燃費とは独立して報酬に反映することにより、例えば、自動車の排気経路に設けられる三元触媒コンバータ等において、排ガス中の有害物質の除去性能を評価する場合等に適用可能である。
これら第3及び第4の要素を共に報酬に反映させることによって、燃費と排ガス性能を共に、強化学習に影響し得るようにしてもよいのは、言うまでもない。
For example, in the above embodiment, the reward is calculated so that the higher the fuel efficiency and exhaust gas performance, the higher the value of the operation. Either one of them may be calculated so that the higher the content of the operation, the larger the value.
For example, the fuel consumption value is measured or calculated, and the third factor is calculated so that the value increases as the fuel consumption performance increases. You may make it calculate a reward so that it may become. This allows only fuel consumption to be reflected in the reward.
Alternatively, for example, the value of the exhaust gas performance is measured or calculated, the fourth element is calculated so that the value increases as the exhaust gas performance increases, and based on this, the better the exhaust gas performance, the better the operation You may make it calculate a reward so that it may become a big value. This allows only emissions performance to be reflected in rewards. By reflecting exhaust gas performance in remuneration independently of fuel consumption, it can be applied, for example, when evaluating the performance of removing harmful substances in exhaust gas in a three-way catalytic converter installed in the exhaust path of an automobile. .
It goes without saying that both the fuel efficiency and the exhaust gas performance may be affected by reinforcement learning by reflecting both of these third and fourth elements in the reward.

また、上記実施形態においては、第1学習モデル40及び第2学習モデル50を学習させる際には、実際に車両2を走行させて走行データを観測、取得するように説明したが、これに限られない。例えば、学習時においては、車両2の代わりにシミュレータを使用してもよい。 In the above embodiment, when the first learning model 40 and the second learning model 50 are learned, the vehicle 2 is actually driven to observe and acquire the driving data. can't For example, a simulator may be used instead of the vehicle 2 during learning.

また、上記実施形態においては、操作の対象はアクセルペダル2cとブレーキペダル2dであり、走行状態は、アクセルペダル2cとブレーキペダル2dの検出量を含むように構成されていたが、これに限られない。 In the above-described embodiment, the objects to be operated are the accelerator pedal 2c and the brake pedal 2d, and the running state is configured to include the detected amounts of the accelerator pedal 2c and the brake pedal 2d. do not have.

また、上記実施形態において、報酬の計算に使用される第1要素rAP、rBPは、第2の時刻における走行状態st+1において、第1の時刻からのアクセルペダル2cやブレーキペダル2dの検出量の推移を取得し、時間軸と、アクセルペダル2cやブレーキペダル2dの検出量を軸とする座標系上で、検出量を関数として表現したうえで、この関数の二階微分または一階微分の値を基に、二階微分または一階微分の最大値の絶対値を計算し、これが所定の閾値以下であれば正の値とし、閾値よりも大きければ負の値とすることで計算したが、これに限られない。
第1要素は、例えば、第1の時刻と第2の時刻の時間間隔が十分に短い場合には、第1の時刻におけるアクセルペダルの開度と、第2の時刻におけるアクセルペダルの開度の2値を比較し、その差分が所定の値以上であれば、アクセルペダル2cやブレーキペダル2dの操作量が大きいと考え、小さい値となるように計算してもよい。
また、上記のように計算した二階微分に関し、第1の時刻と第2の時刻の間において、その値が、正負が所定の回数以上入れ替わるように変動した場合においては、小刻みなペダル操作が行われたとして第1要素の値を小さくするように計算してもよい。
また、アクセルペダル2cやブレーキペダル2dの変化量、すなわち二階微分または一階微分の最大値の絶対値に-1を乗算して負の値とし、これを第1要素としてもよい。この第1要素をできるだけ大きくするように計算することで、アクセルペダル2cやブレーキペダル2dの変化量が小さくなるような結果を取得し得る。
あるいは、上記全てを、報酬を計算する上での異なる要素として個別に計算し、報酬に反映することで、上記全ての要因が個別に報酬に影響するように、報酬を計算しても構わない。
Further, in the above-described embodiment, the first elements r AP and r BP used for calculating the reward are determined by the detection of the accelerator pedal 2c and the brake pedal 2d from the first time in the running state s t+1 at the second time. After obtaining the transition of the amount, expressing the detected amount as a function on the coordinate system having the axes of the time axis and the detected amount of the accelerator pedal 2c and the brake pedal 2d, the second derivative or the first derivative of this function Based on the value, the absolute value of the maximum value of the second derivative or the first derivative is calculated, and if this is less than or equal to a predetermined threshold, it is a positive value, and if it is greater than the threshold, it is a negative value. It is not limited to this.
The first element is, for example, when the time interval between the first time and the second time is sufficiently short, the opening degree of the accelerator pedal at the first time and the opening degree of the accelerator pedal at the second time. If the two values are compared and the difference is equal to or greater than a predetermined value, it may be considered that the operation amount of the accelerator pedal 2c or the brake pedal 2d is large, and calculation may be performed so as to give a small value.
Further, regarding the second-order derivative calculated as described above, if the value changes so that the positive and negative values change more than a predetermined number of times between the first time and the second time, the pedal operation is performed in small increments. It may be calculated to reduce the value of the first element assuming that
Alternatively, the amount of change in the accelerator pedal 2c or the brake pedal 2d, that is, the absolute value of the maximum value of the second-order differential or the first-order differential, may be multiplied by -1 to obtain a negative value, which may be used as the first element. By calculating the first element as large as possible, it is possible to obtain a result that reduces the amount of change in the accelerator pedal 2c and the brake pedal 2d.
Alternatively, the remuneration may be calculated so that all of the above factors individually affect the remuneration by calculating all of the above separately as different factors in calculating the remuneration and reflecting them in the remuneration. .

更には、時間軸と、アクセルペダル2cまたはブレーキペダル2dの検出量を軸とする座標系上で、検出量を関数として表現した際に、関数の積分量が小さいほど値が大きくなるように設定された積分要素が計算され、当該積分要素を基に報酬が計算されるようにしてもよい。積分量が小さい操作においては、アクセルペダル2cやブレーキペダル2dの全体的な操作量が少なく、燃費や排ガス性能が良好であると考えられる。すなわち、上記関数の積分量が小さいほど値が大きくなるように設定した積分要素を基に報酬を計算することで、効果的に、燃費や排ガス性能を考慮して車両2を操作可能な、ドライブロボット4の制御装置を提供可能である。 Furthermore, when the detected amount is expressed as a function on a coordinate system having axes of the time axis and the detected amount of the accelerator pedal 2c or the brake pedal 2d, the smaller the integral of the function, the larger the value. The calculated integral element may be calculated, and the reward may be calculated based on the integral element. In operation with a small integral amount, the overall operation amount of the accelerator pedal 2c and the brake pedal 2d is small, and it is considered that the fuel consumption and exhaust gas performance are good. That is, by calculating the reward based on the integral element that is set such that the smaller the integral of the function, the larger the value, the driver can effectively operate the vehicle 2 in consideration of fuel consumption and exhaust gas performance. A control device for the robot 4 can be provided.

また、学習モデル40、50の構成は、上記実施形態において説明したものに限られないのは、言うまでもない。例えば、学習モデル40、50において、中間層42、52の数を、3より小さい、または3より多い数とする等、多くの変形例が想定されるが、本発明の主旨を損なわない限りにおいて、どのような構成を備えていてもよい。
これは、学習モデル40、50の損失関数に関しても同様である。上記実施形態において、例えば第2学習モデル50の損失関数は、既に説明した数式3に示される構造としたが、これに代えて、次の数式4を第2学習モデル50の損失関数としてもよい。数式4は、損失関数の計算において、学習対象として現存する、学習中の現段階のネットワークを用いるのではなく、少し前の時点で固定された第1学習モデル40及び第2学習モデル50に対し、これをターゲットネットワークとして使用する場合の損失関数である。Qtargetは、ターゲットネットワークとしての第2学習モデル50における行動価値関数であり、μtargetは、ターゲットネットワークとしての第1学習モデル40における出力関数である。
Further, it goes without saying that the configurations of the learning models 40 and 50 are not limited to those described in the above embodiments. For example, in the learning models 40 and 50, the number of intermediate layers 42 and 52 is less than 3 or more than 3. Many modifications are assumed, but as long as it does not impair the gist of the present invention. , may have any configuration.
The same is true for the loss functions of the learning models 40,50. In the above embodiment, for example, the loss function of the second learning model 50 has the structure shown in the already described formula 3, but instead of this, the following formula 4 may be used as the loss function of the second learning model 50. . Equation 4 uses the first learning model 40 and the second learning model 50 that were fixed a little while ago instead of using the current network that is currently being learned as a learning target in the calculation of the loss function. , is the loss function when using this as the target network. Q target is the action value function in the second learning model 50 as the target network, and μ target is the output function in the first learning model 40 as the target network.

Figure 0007110891000004
Figure 0007110891000004

また、上記実施形態においては、操作内容推論部31により推論された操作の内容aは、そのまま車両操作制御部23に送信されて、ドライブロボット4の制御に使用されたが、これに限られない。例えば、操作の内容aを過去または将来の一定の期間にわたって、横軸を時間軸として関数表現したうえで、ローパスフィルタを適用することで、近接する時刻における操作の内容aの変化をなだらかにすることにより、車両2を滑らかに操作することができる。
操作の内容aに対して、過去または将来の一定の期間にわたって移動平均を計算することによっても、同様な効果が期待できる。
あるいは、ドライブロボット制御部20は、フィードバック系の制御を行うフィードバック制御部を備え、操作の内容aは、フィードフォワード値としてフィードバック制御部で使用されてもよい。すなわち、フィードバック制御部により、例えばPID制御などのフィードバック系の制御系を実現し、操作内容推論部31により推論された操作の内容aを、当該制御系におけるフィードフォワード値として使用するように構成してもよい。この場合においては、車速追従性が向上する。
Further, in the above-described embodiment, the operation content a inferred by the operation content inference unit 31 is transmitted as is to the vehicle operation control unit 23 and used to control the drive robot 4, but the present invention is not limited to this. . For example, by expressing the content of operation a as a function over a certain period of time in the past or in the future with the horizontal axis as the time axis, and applying a low-pass filter, smooth changes in the content of operation a at close times. Thus, the vehicle 2 can be smoothly operated.
A similar effect can be expected by calculating a moving average over a certain period of time in the past or in the future for the contents of the operation a.
Alternatively, the drive robot control unit 20 may include a feedback control unit that controls a feedback system, and the operation content a may be used by the feedback control unit as a feedforward value. That is, the feedback control unit realizes a feedback control system such as PID control, and the operation content a inferred by the operation content inference unit 31 is configured to be used as a feedforward value in the control system. may In this case, vehicle speed followability is improved.

また、上記実施形態においては、学習前後における損失関数の差が一定の値以下となった場合に学習を終了したが、これに限られない。例えば、所定の回数だけ学習モデル40、50を更新したら学習を終了するようにしてもよい。あるいは、学習途中のモデル40を用いて車両2を実際に走行させ、その結果として燃費や排ガス性能等を実際に測定して、これを基に走行スコアを計算し、走行スコアが学習前後で一定以上増加しなくなった場合に学習を終了するようにしてもよい。 Further, in the above embodiment, learning is terminated when the difference between the loss functions before and after learning is equal to or less than a certain value, but the present invention is not limited to this. For example, learning may be terminated after the learning models 40 and 50 are updated a predetermined number of times. Alternatively, the vehicle 2 is actually driven using the model 40 that is in the middle of learning, and as a result, the fuel efficiency, exhaust gas performance, etc. are actually measured, and the driving score is calculated based on this, and the driving score is constant before and after learning. Learning may be terminated when the number does not increase any more.

また、上記実施形態においては、第1学習モデル40と第2学習モデル50は強化学習のみにより学習されていたが、部分的に教師あり学習を組み合わせてもよい。例えば、アクセルペダル2cとブレーキペダル2dを操作して何らかの走行を行った際に、その走行データを取得して、検出車速を指令車速に置き換えると、指令車速に完全に追従されたアクセルペダル2cとブレーキペダル2dの操作データを得ることができる。このように作成されたデータを教師データとして教師あり学習を併用することにより、強化学習における学習の方向性を定めて学習の進捗を促進するとともに、追従性がより高い操作の内容を学習、推論することができる。 Also, in the above embodiment, the first learning model 40 and the second learning model 50 are learned only by reinforcement learning, but they may be partially combined with supervised learning. For example, when the accelerator pedal 2c and the brake pedal 2d are operated for some driving, the driving data is obtained and the detected vehicle speed is replaced with the commanded vehicle speed. Operation data of the brake pedal 2d can be obtained. By combining the data created in this way with supervised learning as training data, the direction of learning in reinforcement learning is determined and the progress of learning is promoted, and the details of operations with higher followability are learned and inferred. can do.

これ以外にも、本発明の主旨を逸脱しない限り、上記実施形態及び変形例で挙げた構成を取捨選択したり、他の構成に適宜変更したりすることが可能である。 In addition to this, it is possible to select the configurations mentioned in the above-described embodiment and modifications, or to change them to other configurations as appropriate without departing from the gist of the present invention.

1 試験装置
2 車両
2c アクセルペダル
2d ブレーキペダル
3 シャシーダイナモメータ
4 ドライブロボット(自動操縦ロボット)
10、60 制御装置
20、61 ドライブロボット制御部
21 指令車速記憶部
22 走行状態取得部
23 車両操作制御部
30 学習部
31、31A 操作内容推論部
32 報酬計算部
33 強化学習部
34 学習用データ記憶部
40、40A 第1学習モデル
50 第2学習モデル
Q 行動価値関数(評価値)
s 走行状態
s1 アクセルペダル検出量
s2 ブレーキペダル検出量
sN 指令車速
a 操作の内容
a1 アクセルペダル操作
a2 ブレーキペダル操作
1 test device 2 vehicle 2c accelerator pedal 2d brake pedal 3 chassis dynamometer 4 drive robot (autopilot robot)
10, 60 control devices 20, 61 drive robot control unit 21 command vehicle speed storage unit 22 running state acquisition unit 23 vehicle operation control unit 30 learning units 31, 31A operation content inference unit 32 reward calculation unit 33 reinforcement learning unit 34 data storage for learning Parts 40, 40A First learning model 50 Second learning model Q Action value function (evaluation value)
s Driving state s1 Accelerator pedal detection amount s2 Brake pedal detection amount sN Commanded vehicle speed a Contents of operation a1 Accelerator pedal operation a2 Brake pedal operation

Claims (10)

車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御装置であって、
前記車両の走行状態を取得する走行状態取得部と、
第1の時刻における前記走行状態を基に、第1学習モデルにより、前記第1の時刻より後の前記車両の操作の内容を推論する操作内容推論部と、
前記操作の内容に基づき前記自動操縦ロボットを制御する車両操作制御部と、
を備え、
前記走行状態は、前記車両において検出された車速と、前記走行状態が取得された時刻における前記指令車速を含み、
前記第1学習モデルは、前記操作の内容に基づいた前記自動操縦ロボットの操作の後の、前記第1の時刻より後の第2の時刻における前記走行状態に基づいて、燃費と排ガス性能のいずれか一方または双方がより高い前記操作の内容であるほど大きな値となるように計算された報酬を基に、強化学習され
前記第1学習モデルは、前記報酬を基に前記操作の内容を評価して前記操作の内容の評価値を計算する第2学習モデルによって計算された、前記評価値を基に、前記評価値がより高い前記操作の内容を推論するように学習されている、自動操縦ロボットの制御装置。
A control device for an autopilot robot that controls an autopilot robot that is mounted on a vehicle and drives the vehicle so that the vehicle travels according to a prescribed command vehicle speed,
a running state acquisition unit that acquires the running state of the vehicle;
an operation content inference unit that infers details of operation of the vehicle after the first time using a first learning model based on the running state at the first time;
a vehicle operation control unit that controls the autopilot robot based on the content of the operation;
with
The running state includes the vehicle speed detected in the vehicle and the command vehicle speed at the time when the running state was acquired,
The first learning model is based on the driving state at a second time after the first time after the operation of the autopilot robot based on the content of the operation, either fuel efficiency or exhaust gas performance. Reinforcement learning is performed based on the reward calculated so that the higher the content of the operation, the higher the value of either one or both ,
The first learning model evaluates the content of the operation based on the reward, and calculates the evaluation value of the content of the operation based on the evaluation value calculated by the second learning model. A controller for an autopilot robot that has been trained to infer higher said maneuver content .
前記操作の対象は、アクセルペダルとブレーキペダルを含み、前記走行状態は、アクセルペダルとブレーキペダルの検出量を含む、請求項1に記載の自動操縦ロボットの制御装置。 2. The control device for an autopilot robot according to claim 1, wherein the objects to be operated include an accelerator pedal and a brake pedal, and the running state includes detection amounts of the accelerator pedal and the brake pedal. 前記アクセルペダル及び前記ブレーキペダルの前記検出量の変化が小さいほど値が大きくなるように設定された第1要素が計算され、当該第1要素を基に前記報酬が計算されている、請求項2に記載の自動操縦ロボットの制御装置。 3. A first element is calculated which is set such that the smaller the change in the detected amount of the accelerator pedal and the brake pedal is, the larger the value is, and the reward is calculated based on the first element. 3. The autopilot robot control device according to . 時間軸と、前記アクセルペダルまたは前記ブレーキペダルの前記検出量を軸とする座標系上で、前記検出量を関数として表現した際に、前記関数の一階微分または二階微分の値を基に、前記第1要素が計算されている、請求項3に記載の自動操縦ロボットの制御装置。 When the detected amount is expressed as a function on a coordinate system having the time axis and the detected amount of the accelerator pedal or the brake pedal as axes, based on the value of the first derivative or the second derivative of the function, 4. An autopilot robot controller according to claim 3, wherein said first factor is calculated. 前記関数の一階微分または二階微分の最大値の絶対値が所定の閾値以下であれば、前記第1要素が正の値となるように、かつ、前記最大値の絶対値が前記所定の閾値よりも大きければ、前記第1要素が負の値となるように、前記第1要素が計算されている、請求項4に記載の自動操縦ロボットの制御装置。 If the absolute value of the maximum value of the first-order derivative or the second-order derivative of the function is less than or equal to a predetermined threshold value, the first element is a positive value, and the absolute value of the maximum value is the predetermined threshold value. 5. The control device for an autopilot robot according to claim 4, wherein said first element is calculated such that said first element becomes a negative value if it is greater than . 時間軸と、前記アクセルペダルまたは前記ブレーキペダルの前記検出量を軸とする座標系上で、前記検出量を関数として表現した際に、前記関数の積分量が小さいほど値が大きくなるように設定された積分要素が計算され、当該積分要素を基に前記報酬が計算されている、請求項2に記載の自動操縦ロボットの制御装置。 When the detected amount is expressed as a function on a coordinate system whose axes are the time axis and the detected amount of the accelerator pedal or the brake pedal, the smaller the integral of the function, the larger the value. 3. The control device for an autopilot robot according to claim 2, wherein the calculated integral element is calculated, and the reward is calculated based on the integral element. 前記操作の内容に基づいた前記自動操縦ロボットの操作の後の、前記第2の時刻における前記検出された車速と前記指令車速との差が小さいほど値が大きくなるように設定された第2要素が計算され、当該第2要素を基に前記報酬が計算されている、請求項1から6のいずれか一項に記載の自動操縦ロボットの制御装置。 A second element that is set such that the smaller the difference between the detected vehicle speed and the commanded vehicle speed at the second time after the operation of the autopilot robot based on the content of the operation, the larger the value of the second element. is calculated, and the reward is calculated based on the second element. 前記操作内容推論部は、前記第1の時刻以降の複数の時刻における前記操作の内容を推論する、請求項1から7のいずれか一項に記載の自動操縦ロボットの制御装置。 The control device for an autopilot robot according to any one of claims 1 to 7, wherein the operation content inference unit infers the content of the operation at a plurality of times after the first time. 前記第2学習モデルは、前記第1学習モデルにより出力された前記操作の内容を入力とし、前記報酬が大きいほど高い前記評価値を出力するように学習され、
これら前記第1学習モデルと前記第2学習モデルの学習が繰り返されることにより、前記第1学習モデルと前記第2学習モデルは強化学習されている、請求項1から8のいずれか一項に記載の自動操縦ロボットの制御装置。
The second learning model receives as input the content of the operation output by the first learning model, and is learned to output a higher evaluation value as the reward increases,
The first learning model and the second learning model are subjected to reinforcement learning by repeating the learning of the first learning model and the second learning model, according to any one of claims 1 to 8. autopilot robot controller.
車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御方法であって、
前記車両の走行状態を取得し、前記走行状態は、前記車両において検出された車速と、前記走行状態が取得された時刻における前記指令車速を含み、
1の時刻における前記走行状態を基に、第1学習モデルにより、前記第1の時刻より後の前記車両の操作の内容を推論し、前記第1学習モデルは、前記操作の内容に基づいた前記自動操縦ロボットの操作の後の、前記第1の時刻より後の第2の時刻における前記走行状態に基づいて、燃費と排ガス性能のいずれか一方または双方がより高い前記操作の内容であるほど大きな値となるように計算された報酬を基に、強化学習され、前記第1学習モデルは、前記報酬を基に前記操作の内容を評価して前記操作の内容の評価値を計算する第2学習モデルによって計算された、前記評価値を基に、前記評価値がより高い前記操作の内容を推論するように学習されており、
前記操作の内容に基づき前記自動操縦ロボットを制御する、自動操縦ロボットの制御方法。
An autopilot robot control method for controlling an autopilot robot mounted on a vehicle to drive the vehicle so that the vehicle travels according to a prescribed command vehicle speed, comprising:
obtaining a running state of the vehicle, the running state including the vehicle speed detected in the vehicle and the command vehicle speed at the time when the running state was acquired;
Based on the running state at the first time, a first learning model infers the content of the operation of the vehicle after the first time, and the first learning model is based on the content of the operation. Based on the running state at a second time after the first time after the operation of the autopilot robot, either one or both of the fuel efficiency and the exhaust gas performance are higher the higher the content of the operation. Reinforcement learning is performed based on a reward calculated to have a large value, and the first learning model evaluates the content of the operation based on the reward and calculates an evaluation value of the content of the operation. Based on the evaluation value calculated by the learning model, it is learned to infer the content of the operation with the higher evaluation value,
A control method for an autopilot robot, wherein the autopilot robot is controlled based on the content of the operation.
JP2018188766A 2018-10-04 2018-10-04 Autopilot robot control device and control method Active JP7110891B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018188766A JP7110891B2 (en) 2018-10-04 2018-10-04 Autopilot robot control device and control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018188766A JP7110891B2 (en) 2018-10-04 2018-10-04 Autopilot robot control device and control method

Publications (2)

Publication Number Publication Date
JP2020056737A JP2020056737A (en) 2020-04-09
JP7110891B2 true JP7110891B2 (en) 2022-08-02

Family

ID=70107078

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018188766A Active JP7110891B2 (en) 2018-10-04 2018-10-04 Autopilot robot control device and control method

Country Status (1)

Country Link
JP (1) JP7110891B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7365967B2 (en) * 2020-05-27 2023-10-20 株式会社 日立産業制御ソリューションズ Action selection system and action selection method
JP6988969B1 (en) * 2020-09-15 2022-01-05 株式会社明電舎 Learning system and learning method of operation inference learning model that controls autopilot robot

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014115168A (en) 2012-12-07 2014-06-26 Aisin Aw Co Ltd Vehicular travel simulation device, driver model construction method and driver model construction program
JP2016156687A (en) 2015-02-24 2016-09-01 株式会社明電舎 Vehicle speed control device
JP2017111116A (en) 2015-12-10 2017-06-22 株式会社堀場製作所 Vehicle speed pattern display device, program used for the device, traveling test method, and automatic driving device

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2246686A1 (en) * 2009-05-01 2010-11-03 Froude Hofmann Limited Vehicle test apparatus and method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014115168A (en) 2012-12-07 2014-06-26 Aisin Aw Co Ltd Vehicular travel simulation device, driver model construction method and driver model construction program
JP2016156687A (en) 2015-02-24 2016-09-01 株式会社明電舎 Vehicle speed control device
JP2017111116A (en) 2015-12-10 2017-06-22 株式会社堀場製作所 Vehicle speed pattern display device, program used for the device, traveling test method, and automatic driving device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
河本 誠 他5名,強化学習を用いたアクセル・ブレーキペダル操作のためのドライバモデルの有効性検証 HILSを用いた車速追従性と人間らしい操作特性の評価,日本機械学会東海支部第62期総会講演会講演論文集,No.133-1,日本,2013年,p.39-40,インターネット<URL : https://www.jstage.jst.go.jp/article/jsmetokai/2013.62/0/2013.62_39/_pdf/-char/ja>

Also Published As

Publication number Publication date
JP2020056737A (en) 2020-04-09

Similar Documents

Publication Publication Date Title
US20220143823A1 (en) Learning System And Learning Method For Operation Inference Learning Model For Controlling Automatic Driving Robot
CN110119844B (en) Robot motion decision method, system and device introducing emotion regulation and control mechanism
KR102313002B1 (en) Vehicle speed control device and vehicle speed control method
WO2020099672A1 (en) Controlling agents using amortized q learning
JP7110891B2 (en) Autopilot robot control device and control method
CN111433689B (en) Generation of control systems for target systems
JP2010086405A (en) System for adapting control parameter
JP6908144B1 (en) Control device and control method for autopilot robot
JP2021051640A (en) Model generation apparatus and model generation method
JP2021051638A (en) Model generation apparatus, data generation apparatus, model generation method, and data generation method
JP2021051637A (en) Model generation apparatus, data generation apparatus, model generation method, and data generation method
CN114278727B (en) Vehicle automatic gear shifting control method, system, medium and equipment under limit working condition
US11718295B2 (en) Automatic driving robot control device and control method
WO2022059484A1 (en) Learning system and learning method for operation inference learning model for controlling automated driving robot
JP2021143882A (en) Learning system and learning method for operation inference learning model that controls automatically manipulated robot
JP2024001584A (en) Control unit and control method for automatic steering robot
JP2021128510A (en) Learning system and learning method for operation deduction learning model for controlling automatic operation robot
Zhao et al. Inverse Reinforcement Learning and Gaussian Process Regression-based Real-Time Framework for Personalized Adaptive Cruise Control
US20240075943A1 (en) Method and system for controlling a vehicle using machine learning
WO2022264929A1 (en) Control device and control method
US20240203284A1 (en) Computer-implemented tools and techniques using virtual reality environments for industrial equipment training
US20240256884A1 (en) Generating environment models using in-context adaptation and exploration
JP2023107486A (en) inspection controller
JP2023071063A (en) Model learning system and model learning device
WO2022049672A1 (en) Learning device, learning method, control system, and recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220704

R150 Certificate of patent or registration of utility model

Ref document number: 7110891

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150