JP2021124403A - Control device and control method for automatically manipulating robot - Google Patents

Control device and control method for automatically manipulating robot Download PDF

Info

Publication number
JP2021124403A
JP2021124403A JP2020018391A JP2020018391A JP2021124403A JP 2021124403 A JP2021124403 A JP 2021124403A JP 2020018391 A JP2020018391 A JP 2020018391A JP 2020018391 A JP2020018391 A JP 2020018391A JP 2021124403 A JP2021124403 A JP 2021124403A
Authority
JP
Japan
Prior art keywords
inference
vehicle
adjustment coefficient
unit
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020018391A
Other languages
Japanese (ja)
Other versions
JP6908144B1 (en
Inventor
泰宏 金刺
Yasuhiro Kanesashi
泰宏 金刺
健人 吉田
Taketo Yoshida
健人 吉田
寛修 深井
Hironaga Fukai
寛修 深井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP2020018391A priority Critical patent/JP6908144B1/en
Priority to PCT/JP2020/046988 priority patent/WO2021157212A1/en
Application granted granted Critical
Publication of JP6908144B1 publication Critical patent/JP6908144B1/en
Publication of JP2021124403A publication Critical patent/JP2021124403A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M17/00Testing of vehicles
    • G01M17/007Wheeled or endless-tracked vehicles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

To provide a control device and control method for an automatically manipulating robot (drive robot).SOLUTION: The control device for an automatically manipulating robot comprises: a manipulation content inference unit 41 for inferring manipulation in a first cycle by a manipulation inference learning model 50 generated by reinforced training of a machine learner; an adjustment coefficient inference unit 45 for inferring an adjustment coefficient by an adjustment coefficient inference learning model 70 that adjusts the manipulation inferred by the manipulation content inference unit 41 during the first cycle on the basis of a traveling state and is generated by reinforced training of a machine learner so as to infer an adjustment coefficient; and a vehicle manipulation control unit 22 for adjusting manipulation by the adjustment coefficient and generating manipulation after adjustment during the first cycle and controlling an automatically manipulating robot 4 on the basis of the manipulation after adjustment.SELECTED DRAWING: Figure 2

Description

本発明は、自動操縦ロボットの制御装置及び制御方法に関する。 The present invention relates to a control device and a control method for an autopilot robot.

一般に、普通自動車などの車両を製造、販売する際には、国や地域により規定された、特定の走行パターン(モード)により車両を走行させた際の燃費や排出ガスを測定し、これを表示する必要がある。
モードは、例えば、走行開始から経過した時間と、その時に到達すべき車速との関係として、グラフにより表わすことが可能である。この到達すべき車速は、車両へ与えられる達成すべき速度に関する指令という観点で、指令車速と呼ばれることがある。
上記のような、燃費や排出ガスに関する試験は、シャシーダイナモメータ上に車両を載置し、車両に搭載された自動操縦ロボット、所謂ドライブロボット(登録商標)により、モードに従って車両を運転させることにより行われる。
Generally, when manufacturing and selling vehicles such as ordinary automobiles, the fuel consumption and exhaust gas when the vehicle is driven according to a specific driving pattern (mode) specified by the country or region are measured and displayed. There is a need to.
The mode can be represented by a graph as, for example, the relationship between the time elapsed from the start of traveling and the vehicle speed to be reached at that time. This vehicle speed to be reached is sometimes referred to as a command vehicle speed in terms of a command regarding the speed to be achieved given to the vehicle.
The above tests on fuel consumption and exhaust gas are carried out by placing the vehicle on the chassis dynamometer and driving the vehicle according to the mode by the autopilot robot, so-called drive robot (registered trademark) mounted on the vehicle. Will be done.

指令車速には、許容誤差範囲が規定されている。車速が許容誤差範囲を逸脱すると、その試験は無効となるため、自動操縦ロボットの制御には、指令車速への高い追従性が求められる。このため、自動操縦ロボットの制御に、例えば強化学習の技術が適用されることがある。
例えば、特許文献1には、人間らしいペダル操作を行うドライバモデルを強化学習によって構築することが可能な車輌用走行シミュレーション装置、ドライバモデル構築方法及びドライバモデル構築プログラムが開示されている。
より詳細には、車輌用走行シミュレーション装置は、ドライバモデルのゲインの値を変更させながら、車輌モデルを複数回走行させ、この時に変更されたゲインの値を報酬値に基づいて評価することによって、ドライバモデルのゲインの設定を自動的に行う。
特許文献1の構成においては、実際に車輌を走行させるに際し、強化学習により予め決定されたゲインの値を用いて、ドライバモデルが車輌をPID制御する。
The margin of error is specified for the command vehicle speed. If the vehicle speed deviates from the margin of error, the test becomes invalid. Therefore, the control of the autopilot robot is required to have high followability to the commanded vehicle speed. Therefore, for example, reinforcement learning technology may be applied to the control of the autopilot robot.
For example, Patent Document 1 discloses a vehicle driving simulation device, a driver model construction method, and a driver model construction program capable of constructing a driver model that performs a human-like pedal operation by reinforcement learning.
More specifically, the vehicle driving simulation device travels the vehicle model multiple times while changing the gain value of the driver model, and evaluates the changed gain value based on the reward value. The gain of the driver model is set automatically.
In the configuration of Patent Document 1, the driver model PID controls the vehicle by using the gain value determined in advance by reinforcement learning when the vehicle is actually driven.

特開2014−115168号公報Japanese Unexamined Patent Publication No. 2014-115168

車両を走行させて特性を計測するための、例えばWLTC(Worldwide harmonized Light vehicles Test Cycle)モード等の走行モードには、多種多様なパターンの走行モードが含まれている。特許文献1のように、予め決定されたゲインの値により車両を制御する装置においては、このような多種多様なパターンの各々に柔軟に対応して、車両を高い精度で指令車速に追従させることは、容易ではない。 The driving mode for driving the vehicle and measuring the characteristics, for example, the WLTC (World Harmonized Light Vehicles Test Cycle) mode, includes a wide variety of patterns of driving modes. In a device that controls a vehicle by a predetermined gain value as in Patent Document 1, the vehicle can be made to follow a commanded vehicle speed with high accuracy by flexibly responding to each of such a wide variety of patterns. Is not easy.

これに対し、検出車速や指令車速等の車両の状態を入力させて当該状態に適した車両の操作を出力するように構築された、ニューラルネットワーク等の機械学習器を、強化学習により学習させて、操作を推論する学習モデルを生成することが考えられる。実際に車両を走行させる際には、車両の状態を操作推論学習モデルに入力し、これに対して操作推論学習モデルが推論した操作を車両に適用するように、ドライブロボットが制御される。
一般に、ニューラルネットワーク等の、機械学習器を学習させて生成される学習モデルによる推論は、演算量が多くなる傾向にある。したがって、実際にドライブロボットを制御する制御時刻の時間間隔である制御周期よりも、操作推論学習モデルによって操作を推論する推論時刻の時間間隔である推論周期の方が長くなり、一つの推論周期内に、複数の制御時刻が含まれることがある。
このような場合に、ある推論周期内に含まれる複数の制御時刻の全てにおいて、操作推論学習モデルによって最新に推論された操作と同じ操作を適用することも考えられるが、これは緻密な制御とはいえず、指令車速への高い追従性が望めない。
あるいは、次の推論周期に含まれる複数の制御時刻の全てにおける操作を、一度にまとめて推論することも考えられる。しかし、この場合においては、推論される操作の数が増えるために操作推論学習モデルの構造が複雑になる。また、操作推論学習モデルの学習も容易ではない。
On the other hand, a machine learning device such as a neural network, which is constructed to input the vehicle state such as the detected vehicle speed and the command vehicle speed and output the operation of the vehicle suitable for the state, is trained by reinforcement learning. , It is conceivable to generate a learning model that infers the operation. When the vehicle is actually driven, the drive robot is controlled so as to input the state of the vehicle into the operation inference learning model and apply the operation inferred by the operation inference learning model to the vehicle.
In general, inference by a learning model generated by learning a machine learning device such as a neural network tends to require a large amount of calculation. Therefore, the inference cycle, which is the time interval of the inference time for inferring the operation by the operation inference learning model, is longer than the control cycle, which is the time interval of the control time that actually controls the drive robot, and is within one inference cycle. May include multiple control times.
In such a case, it is conceivable to apply the same operation as the operation most recently inferred by the operation inference learning model at all of the plurality of control times included in a certain inference cycle, but this is a precise control. However, high followability to the command vehicle speed cannot be expected.
Alternatively, it is also conceivable to infer operations at all of a plurality of control times included in the next inference cycle at once. However, in this case, the structure of the operation inference learning model becomes complicated because the number of inferred operations increases. Also, learning an operation inference learning model is not easy.

本発明が解決しようとする課題は、車両の操作を推論する学習モデルの構造が簡潔で機械学習が容易であり、かつ指令車速に高い精度で追従させることができる、自動操縦ロボット(ドライブロボット)の制御装置及び制御方法を提供することである。 The problem to be solved by the present invention is an autopilot robot (drive robot) in which the structure of a learning model for inferring vehicle operation is simple, machine learning is easy, and the commanded vehicle speed can be followed with high accuracy. Is to provide a control device and a control method for the above.

本発明は、上記課題を解決するため、以下の手段を採用する。すなわち、本発明は、車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御装置であって、車速と前記指令車速を含む、前記車両の走行状態を基に、前記車両を前記指令車速に従って走行させるような前記車両の操作を推論するように、機械学習器を強化学習して生成された操作推論学習モデルにより、前記操作を第1の周期で推論する操作内容推論部と、前記走行状態を基に、前記操作内容推論部により推論された前記操作を前記第1の周期の間に調整する、調整係数を推論するように、機械学習器を強化学習して生成された調整係数推論学習モデルにより、前記調整係数を推論する調整係数推論部と、前記第1の周期の間に、前記調整係数により前記操作を調整して調整後操作を生成し、当該調整後操作に基づき前記自動操縦ロボットを制御する車両操作制御部と、を備えている、自動操縦ロボットの制御装置を提供する。 The present invention employs the following means in order to solve the above problems. That is, the present invention is a control device for an automatic control robot that controls an automatic control robot mounted on a vehicle to drive the vehicle so that the vehicle travels in accordance with a specified command vehicle speed. An operation inference learning model generated by strengthening learning of a machine learning device so as to infer the operation of the vehicle such that the vehicle travels according to the commanded vehicle speed based on the traveling state of the vehicle including the commanded vehicle speed. An adjustment coefficient that adjusts the operation inferred by the operation content inference unit during the first cycle based on the operation content inference unit that infers the operation in the first cycle and the running state. With the adjustment coefficient inference learning model generated by strengthening the machine learning device so as to infer Provided is a control device for an automatic control robot, comprising a vehicle operation control unit that adjusts the operation to generate an adjusted operation and controls the automatic control robot based on the adjusted operation.

また、本発明は、車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御方法であって、車速と前記指令車速を含む、前記車両の走行状態を基に、前記車両を前記指令車速に従って走行させるような前記車両の操作を推論するように、機械学習器を強化学習して生成された操作推論学習モデルにより、前記操作を第1の周期で推論し、前記走行状態を基に、推論された前記操作を前記第1の周期の間に調整する、調整係数を推論するように、機械学習器を強化学習して生成された調整係数推論学習モデルにより、前記調整係数を推論し、前記第1の周期の間に、前記調整係数により前記操作を調整して調整後操作を生成し、当該調整後操作に基づき前記自動操縦ロボットを制御する、自動操縦ロボットの制御方法を提供する。 Further, the present invention is a control method for an automatic control robot, which controls an automatic control robot mounted on a vehicle to drive the vehicle so that the vehicle travels in accordance with a specified command vehicle speed. An operation inference learning model generated by reinforcement learning of a machine learning device so as to infer the operation of the vehicle such that the vehicle travels according to the commanded vehicle speed based on the traveling state of the vehicle including the commanded vehicle speed. The machine learning device is strengthened so as to infer the adjustment coefficient, which infers the operation in the first cycle and adjusts the inferred operation during the first cycle based on the running state. The adjustment coefficient is inferred by the adjustment coefficient inference learning model generated by learning, and during the first cycle, the operation is adjusted by the adjustment coefficient to generate an adjusted operation, and the adjusted operation is generated. Provided is a control method of an automatic control robot that controls the automatic control robot based on the above.

本発明によれば、車両の操作を推論する学習モデルの構造が簡潔で機械学習が容易であり、かつ指令車速に高い精度で追従させることができる、自動操縦ロボット(ドライブロボット)の制御装置及び制御方法を提供することができる。 According to the present invention, a control device for an autopilot robot (drive robot), which has a simple structure of a learning model for inferring vehicle operation, easy machine learning, and can follow a commanded vehicle speed with high accuracy. A control method can be provided.

本発明の実施形態における、自動操縦ロボット(ドライブロボット)を用いた試験環境の説明図である。It is explanatory drawing of the test environment using the autopilot robot (drive robot) in embodiment of this invention. 上記実施形態における自動操縦ロボットの制御装置のブロック図である。It is a block diagram of the control device of the autopilot robot in the said embodiment. 上記制御装置のデータの流れを示す処理ブロック図である。It is a processing block diagram which shows the data flow of the said control device. 上記自動操縦ロボットを制御する制御方法における、学習時のフローチャートである。It is a flowchart at the time of learning in the control method which controls the autopilot robot. 上記自動操縦ロボットの制御方法における、性能測定のために車両を走行制御させる際のフローチャートである。It is a flowchart at the time of running control of a vehicle for performance measurement in the control method of the autopilot robot. 上記実施形態の第1変形例における自動操縦ロボットの制御装置のデータの流れを示す処理ブロック図である。It is a processing block diagram which shows the data flow of the control device of the autopilot robot in the 1st modification of the said Embodiment. 上記実施形態の第2変形例における自動操縦ロボットの制御装置のデータの流れを示す処理ブロック図である。It is a processing block diagram which shows the data flow of the control device of the autopilot robot in the 2nd modification of the said Embodiment.

以下、本発明の実施形態について図面を参照して詳細に説明する。
本実施形態においては、自動操縦ロボットとしては、ドライブロボット(登録商標)を用いているため、以下、自動操縦ロボットをドライブロボットと記載する。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
In the present embodiment, since the drive robot (registered trademark) is used as the autopilot robot, the autopilot robot will be referred to as a drive robot below.

図1は、実施形態におけるドライブロボットを用いた試験環境の説明図である。試験装置1は、車両2、シャシーダイナモメータ3、及びドライブロボット4を備えている。
車両2は、床面上に設けられている。シャシーダイナモメータ3は、床面の下方に設けられている。車両2は、車両2の駆動輪2aがシャシーダイナモメータ3の上に載置されるように、位置づけられている。車両2が走行し駆動輪2aが回転する際には、シャシーダイナモメータ3が反対の方向に回転する。
ドライブロボット4は、車両2の運転席2bに搭載されて、車両2を走行させる。ドライブロボット4は、アクチュエータ4cを備えている。アクチュエータ4cは、車両2のアクセルペダル2cに当接するように設けられている。
FIG. 1 is an explanatory diagram of a test environment using a drive robot in the embodiment. The test device 1 includes a vehicle 2, a chassis dynamometer 3, and a drive robot 4.
The vehicle 2 is provided on the floor surface. The chassis dynamometer 3 is provided below the floor surface. The vehicle 2 is positioned so that the drive wheels 2a of the vehicle 2 are placed on the chassis dynamometer 3. When the vehicle 2 travels and the drive wheels 2a rotate, the chassis dynamometer 3 rotates in the opposite direction.
The drive robot 4 is mounted on the driver's seat 2b of the vehicle 2 to drive the vehicle 2. The drive robot 4 includes an actuator 4c. The actuator 4c is provided so as to come into contact with the accelerator pedal 2c of the vehicle 2.

ドライブロボット4は、後に詳説する制御装置11によって制御されている。制御装置11は、ドライブロボット4のアクチュエータ4cを制御することにより、車両2のアクセルペダル2cの開度を変更、調整する。
制御装置11は、ドライブロボット4を、車両2が規定された指令車速に従って走行するように制御する。すなわち、制御装置11は、車両2のアクセルペダル2cの開度を変更することで、規定された走行パターン(モード)に従うように、車両2を走行制御する。より詳細には、制御装置11は、走行開始から時間が経過するに従い、各時間に到達すべき車速である指令車速に従うように、車両2を走行制御する。
The drive robot 4 is controlled by the control device 11 described in detail later. The control device 11 changes and adjusts the opening degree of the accelerator pedal 2c of the vehicle 2 by controlling the actuator 4c of the drive robot 4.
The control device 11 controls the drive robot 4 so that the vehicle 2 travels according to a specified command vehicle speed. That is, the control device 11 controls the traveling of the vehicle 2 so as to follow the defined traveling pattern (mode) by changing the opening degree of the accelerator pedal 2c of the vehicle 2. More specifically, the control device 11 controls the traveling of the vehicle 2 so as to follow the commanded vehicle speed, which is the vehicle speed to be reached at each time, as time elapses from the start of traveling.

制御装置11は、ドライブロボット制御部20と学習部30を備えている。
ドライブロボット制御部20は、ドライブロボット4の制御を行うための制御信号を生成し、ドライブロボット4に送信することで、ドライブロボット4を制御する。学習部30は、後に説明するような機械学習を行い、操作推論学習モデル、第1行動価値推論学習モデル、調整係数推論学習モデル、及び第2行動価値推論学習モデルを生成する。上記のような、ドライブロボット4の制御を行うための制御信号は、操作推論学習モデルと調整係数推論学習モデルによる推論結果を基に生成される。
ドライブロボット制御部20は、例えば、ドライブロボット4の筐体外部に設けられた、コントローラ等の情報処理装置である。学習部30は、例えばパーソナルコンピュータ等の情報処理装置である。
The control device 11 includes a drive robot control unit 20 and a learning unit 30.
The drive robot control unit 20 controls the drive robot 4 by generating a control signal for controlling the drive robot 4 and transmitting the control signal to the drive robot 4. The learning unit 30 performs machine learning as described later to generate an operation inference learning model, a first action value inference learning model, an adjustment coefficient inference learning model, and a second action value inference learning model. The control signal for controlling the drive robot 4 as described above is generated based on the inference results by the operation inference learning model and the adjustment coefficient inference learning model.
The drive robot control unit 20 is, for example, an information processing device such as a controller provided outside the housing of the drive robot 4. The learning unit 30 is an information processing device such as a personal computer.

図2は、試験装置1と制御装置11のブロック図である。図3は、試験装置1と制御装置11のデータの流れを示す処理ブロック図である。
試験装置1は、既に説明したような車両2、シャシーダイナモメータ3、及びドライブロボット4に加え、車両状態計測部5を備えている。車両状態計測部5は、車両2やシャシーダイナモメータ3の状態を計測する各種の計測装置である。車両状態計測部5は、本実施形態においては、車両2のエンジン回転数ndet、エンジン温度ddet、及び車速vdetを検出する。これらの検出された値の各々は、次に説明する制御装置11の、ドライブロボット制御部20に送信される。
FIG. 2 is a block diagram of the test device 1 and the control device 11. FIG. 3 is a processing block diagram showing a data flow of the test device 1 and the control device 11.
The test device 1 includes a vehicle condition measuring unit 5 in addition to the vehicle 2, the chassis dynamometer 3, and the drive robot 4 as described above. The vehicle condition measuring unit 5 is various measuring devices for measuring the condition of the vehicle 2 and the chassis dynamometer 3. In the present embodiment, the vehicle state measuring unit 5 detects the engine speed n det , the engine temperature d det , and the vehicle speed v det of the vehicle 2. Each of these detected values is transmitted to the drive robot control unit 20 of the control device 11 described below.

ドライブロボット制御部20は、車両操作制御部22と駆動状態取得部23を備えている。車両操作制御部22は、操作補完部24を備えている。操作補完部24は、走行抵抗演算部25、フィードバック操作量演算部26、及び車両駆動力演算部27を備えている。学習部30は、指令車速生成部31、推論データ成形部32、学習データ成形部33、操作学習データ生成部34、学習データ記憶部35、調整係数学習データ生成部36、及び強化学習部40を備えている。強化学習部40は、操作内容推論部41、第1行動価値推論部42、報酬計算部43、調整係数推論部45、及び第2行動価値推論部46を備えている。報酬計算部43は、操作報酬計算部44と調整係数報酬計算部47を備えている。
制御装置11の、学習データ記憶部35以外の各構成要素は、例えば上記の各情報処理装置内のCPUにより実行されるソフトウェア、プログラムであってよい。また、学習データ記憶部35は、上記各情報処理装置内外に設けられた半導体メモリや磁気ディスクなどの記憶装置により実現されていてよい。
操作内容推論部41、第1行動価値推論部42、調整係数推論部45、及び第2行動価値推論部46の各々は、操作推論学習モデル50、第1行動価値推論学習モデル60、調整係数推論学習モデル70、及び第2行動価値推論学習モデル80を、それぞれ備えている。
The drive robot control unit 20 includes a vehicle operation control unit 22 and a drive state acquisition unit 23. The vehicle operation control unit 22 includes an operation complement unit 24. The operation complementing unit 24 includes a traveling resistance calculation unit 25, a feedback operation amount calculation unit 26, and a vehicle driving force calculation unit 27. The learning unit 30 includes a command vehicle speed generation unit 31, an inference data molding unit 32, a learning data molding unit 33, an operation learning data generation unit 34, a learning data storage unit 35, an adjustment coefficient learning data generation unit 36, and a reinforcement learning unit 40. I have. The reinforcement learning unit 40 includes an operation content inference unit 41, a first action value inference unit 42, a reward calculation unit 43, an adjustment coefficient inference unit 45, and a second action value inference unit 46. The reward calculation unit 43 includes an operation reward calculation unit 44 and an adjustment coefficient reward calculation unit 47.
Each component of the control device 11 other than the learning data storage unit 35 may be, for example, software or a program executed by the CPU in each of the above-mentioned information processing devices. Further, the learning data storage unit 35 may be realized by a storage device such as a semiconductor memory or a magnetic disk provided inside or outside each of the information processing devices.
Operation contents Each of the inference unit 41, the first action value inference unit 42, the adjustment coefficient inference unit 45, and the second action value inference unit 46 has an operation inference learning model 50, a first action value inference learning model 60, and an adjustment coefficient inference. A learning model 70 and a second action value inference learning model 80 are provided, respectively.

後に説明するように、操作内容推論部41の操作推論学習モデル50が車両2の操作を推論し、調整係数推論部45の調整係数推論学習モデル70が車両2の調整係数を推論する。ドライブロボット制御部20は、これらの推論された操作と調整係数を基に、ドライブロボット4を制御する。
特に本実施形態においては、操作補完部24は、これを構成する走行抵抗演算部25、フィードバック操作量演算部26、及び車両駆動力演算部27により、推論された車両2の操作に対して、推論された調整係数に則ってフィードバック系の制御を行い、実際にドライブロボット4に適用する操作を演算して、ドライブロボット4を制御する。
ここではまず、ドライブロボット制御部20を詳細に説明する。以下、操作内容推論部41及び調整係数推論部45における、操作と調整係数を推論する推論時刻の時間間隔を、推論周期(第1の周期)Tnnと呼称する。また、実際にドライブロボット4を制御する制御時刻の時間間隔を、制御周期(第2の周期)Tdrと呼称する。本実施形態においては、推論周期Tnnは制御周期Tdrよりも長くなるように設定されている。すなわち、ある時刻における操作と調整係数の推論結果と同一の値が、次の推論周期Tnn後の時刻までの時間間隔内の、ドライブロボット4の全ての制御時刻において適用される。以下のドライブロボット制御部20の各動作は、制御周期Tdrにおいて実行される。
As will be described later, the operation inference learning model 50 of the operation content inference unit 41 infers the operation of the vehicle 2, and the adjustment coefficient inference learning model 70 of the adjustment coefficient inference unit 45 infers the adjustment coefficient of the vehicle 2. The drive robot control unit 20 controls the drive robot 4 based on these inferred operations and adjustment coefficients.
In particular, in the present embodiment, the operation complement unit 24 refers to the operation of the vehicle 2 inferred by the traveling resistance calculation unit 25, the feedback operation amount calculation unit 26, and the vehicle driving force calculation unit 27 that constitute the operation complement unit 24. The feedback system is controlled according to the inferred adjustment coefficient, and the operation actually applied to the drive robot 4 is calculated to control the drive robot 4.
Here, first, the drive robot control unit 20 will be described in detail. Hereinafter, the time interval of the inference time for inferring the operation and the adjustment coefficient in the operation content inference unit 41 and the adjustment coefficient inference unit 45 is referred to as an inference cycle (first cycle) Tnn. Further, the time interval of the control time that actually controls the drive robot 4 is referred to as a control cycle (second cycle) Tdr. In the present embodiment, the inference cycle Tnn is set to be longer than the control cycle Tdr. That is, the same value as the inference result of the operation and the adjustment coefficient at a certain time is applied at all the control times of the drive robot 4 within the time interval until the time after the next inference cycle Tnn. Each of the following operations of the drive robot control unit 20 is executed in the control cycle Tdr.

駆動状態取得部23は、車両状態計測部5から、車両2の検出エンジン回転数ndetと検出エンジン温度ddet、及び検出車速vdetを受信する。これらの値は、車両操作制御部22内の各構成要素から参照可能に設けられている。
車両操作制御部22は、後に説明する学習部30の指令車速生成部31から、従うべき指令車速vrefを受信する。車両操作制御部22の車両駆動力演算部27は、この受信した指令車速vrefの微分値と、車両2の重量を基に所定の近似式により車両駆動力Fを演算する。
走行抵抗演算部25は、検出車速vdetを基に、実路面上での実走行を模した走行抵抗FRLを演算する。走行抵抗演算部25は、走行抵抗FRLをシャシーダイナモメータ3へ送信し、走行中の車両2に対して走行抵抗力を発生させる。
The drive state acquisition unit 23 receives the detected engine speed n det , the detected engine temperature d det , and the detected vehicle speed v det of the vehicle 2 from the vehicle state measurement unit 5. These values are provided so as to be able to be referred to from each component in the vehicle operation control unit 22.
The vehicle operation control unit 22 receives a command vehicle speed v ref to be obeyed from the command vehicle speed generation unit 31 of the learning unit 30, which will be described later. The vehicle driving force calculation unit 27 of the vehicle operation control unit 22 calculates the vehicle driving force F x by a predetermined approximate formula based on the received differential value of the command vehicle speed v ref and the weight of the vehicle 2.
Running resistance calculating unit 25, based on the detected vehicle speed v det, it calculates the running resistance F RL imitating the actual running on the real road surface. The traveling resistance calculation unit 25 transmits the traveling resistance FLL to the chassis dynamometer 3 to generate a traveling resistance force for the traveling vehicle 2.

駆動状態取得部23は、車両駆動力Fと走行抵抗FRLが加算された値である要求駆動力Frefと、検出エンジン回転数ndet、検出エンジン温度ddet、及び検出車速(車速)vdetを、後に説明する推論データ成形部32に送信する。
推論データ成形部32は、駆動状態取得部23から受信した値の各々と、別途指令車速生成部31から受信した指令車速vrefを併せて、車両2の走行状態として、操作内容推論部41に送信する。
操作内容推論部41は、これら走行状態を基に、車両2を指令車速vrefに従って走行させるような車両2の操作を推論するように強化学習されている。操作内容推論部41は、推論周期Tnnごとに、受信した走行状態を基に、車両2の操作を推論する。本実施形態においては、操作の対象はアクセルペダル2cを含んでいる。このため、操作内容推論部41は、本実施形態においてはアクセル開度の変更量を演算する。このアクセル開度の変更量は、厳密には、指令車速vrefから算出された要求駆動力Frefを基に、フィードフォワード系の推論を行うことで算出されるものである。すなわち、操作内容推論部41によって算出されるアクセル開度の変更量は、フィードフォワード変更量(以下、FF変更量と記載する)θFFである。
Driving state acquisition unit 23, a driving force demand F ref vehicle driving force F x and the running resistance F RL is added value, detected engine speed n det, detected engine temperature d det, and the detected vehicle speed (vehicle speed) The v date is transmitted to the inference data forming unit 32 described later.
The inference data forming unit 32 combines each of the values received from the drive state acquisition unit 23 and the command vehicle speed v ref separately received from the command vehicle speed generation unit 31 into the operation content inference unit 41 as the running state of the vehicle 2. Send.
The operation content inference unit 41 is reinforcement-learned to infer the operation of the vehicle 2 so as to cause the vehicle 2 to travel according to the command vehicle speed vref based on these traveling states. Operation content The inference unit 41 infers the operation of the vehicle 2 based on the received running state for each inference cycle Tnn. In the present embodiment, the operation target includes the accelerator pedal 2c. Therefore, the operation content inference unit 41 calculates the amount of change in the accelerator opening in the present embodiment. Strictly speaking, the amount of change in the accelerator opening is calculated by inferring the feedforward system based on the required driving force Ref calculated from the command vehicle speed vref. That is, the change amount of the accelerator opening calculated by the operation content inference unit 41 is the feedforward change amount (hereinafter, referred to as the FF change amount) θ FF .

推論データ成形部32はまた、上記の車両2の走行状態を、調整係数推論部45に送信する。調整係数推論部45は、走行状態を基に、操作内容推論部41により推論されたFF変更量すなわち操作θFFを次の推論周期Tnnの間に調整するための、調整係数を推論するように強化学習されている。調整係数推論部45は、推論周期Tnnごとに、受信した走行状態を基に、車両2の調整係数を推論する。本実施形態においては、調整係数は比例ゲインKp、積分ゲインKi、及び微分ゲインKdを含んでいる。 The inference data forming unit 32 also transmits the traveling state of the vehicle 2 to the adjustment coefficient inference unit 45. The adjustment coefficient inference unit 45 infers the adjustment coefficient for adjusting the FF change amount inferred by the operation content inference unit 41, that is, the operation θ FF during the next inference cycle Tnn, based on the traveling state. Reinforcement learning is being done. The adjustment coefficient inference unit 45 infers the adjustment coefficient of the vehicle 2 based on the received running state for each inference cycle Tnn. In the present embodiment, the adjustment coefficient includes a proportional gain Kp, an integrated gain Ki, and a differential gain Kd.

フィードバック操作量演算部26は、指令車速vrefと検出車速vdetとの差分である車速誤差dvを受信する。フィードバック操作量演算部26はまた、推論周期Tnnごとに、調整係数推論部45から、推論された調整係数Kp、Ki、Kd、すなわち比例ゲインKp、積分ゲインKi、及び微分ゲインKdを受信する。
フィードバック操作量演算部26は、推論周期Tnnごとに受信する調整係数Kp、Ki、Kdの最新の推論結果を基に、フィードバック制御により、操作θFFの調整量θFB、すなわちアクセル開度のフィードバック変更量(以下、FB変更量と記載する)θFBを演算する。特に本実施形態においては、フィードバック制御は、PID(Proportional−Differential Controller)制御である。フィードバック操作量演算部26は、上記のように、推論周期Tnnよりも短い制御周期Tdrで、調整量θFBを演算する。
The feedback manipulated variable calculation unit 26 receives the vehicle speed error dv, which is the difference between the command vehicle speed v ref and the detected vehicle speed v det. The feedback manipulated variable calculation unit 26 also receives the inferred adjustment coefficients Kp, Ki, Kd, that is, the proportional gain Kp, the integral gain Ki, and the differential gain Kd from the adjustment coefficient inference unit 45 for each inference cycle Tnn.
The feedback manipulated variable calculation unit 26 feeds back the adjusted variable θ FB of the operation θ FF , that is, the feedback of the accelerator opening degree by feedback control based on the latest inference results of the adjustment coefficients Kp, Ki, and Kd received for each inference cycle Tnn. Change amount (hereinafter referred to as FB change amount) θ FB is calculated. In particular, in the present embodiment, the feedback control is a PID (Proportional-Differential Control) control. As described above, the feedback manipulated variable calculation unit 26 calculates the adjusted variable θ FB with a control cycle Tdr shorter than the inference cycle Tnn.

操作補完部24は、推論周期Tnnごとに、操作内容推論部41から、推論された操作θFFを受信する。
操作補完部24は、推論周期Tnnごとに受信する操作θFFの最新の推論結果に対し、フィードバック操作量演算部26により演算された調整量θFBを加算して、調整後操作θref、すなわち実際に使用される変更量θrefを計算する。操作補完部24は、上記のように、推論周期Tnnよりも短い制御周期Tdrで、調整後操作θrefを演算する。
操作補完部24は、この調整後操作θrefを、ドライブロボット4に送信する。ドライブロボット4は、調整後操作θrefを基にアクチュエータ4cを駆動させてアクセルペダル2cを操作することにより、アクセル開度を変更する。
The operation complement unit 24 receives the inferred operation θ FF from the operation content inference unit 41 for each inference cycle Tnn.
The operation complement unit 24 adds the adjustment amount θ FB calculated by the feedback operation amount calculation unit 26 to the latest inference result of the operation θ FF received for each inference cycle Tnn, and performs the adjusted operation θ ref , that is, Calculate the amount of change θ ref that is actually used. As described above, the operation complement unit 24 calculates the adjusted operation θ ref with a control cycle Tdr shorter than the inference cycle Tnn.
The operation complement unit 24 transmits this adjusted operation θ ref to the drive robot 4. The drive robot 4 changes the accelerator opening degree by driving the actuator 4c based on the adjusted operation θ ref and operating the accelerator pedal 2c.

このように、車両操作制御部22は、調整係数Kp、Ki、Kdにより操作θFFを調整して調整後操作θrefを生成し、調整後操作θrefに基づきドライブロボット4を制御する。操作θFFと調整係数Kp、Ki、Kdは、制御周期Tdrよりも長い推論周期Tnnで推論されて更新される。 Thus, the vehicle operation control unit 22, the adjustment factor Kp, Ki, and adjust the operation theta FF by Kd to generate adjusted operation theta ref, controls the drive robot 4 based on the adjusted operating theta ref. The operation θ FF and the adjustment coefficients Kp, Ki, and Kd are inferred and updated with an inference period Tnn longer than the control period Tdr.

次に、学習部30について説明する。
上記のように、操作内容推論部41は、ある時刻における走行状態を基に、当該時刻よりも後の車両2の操作θFFを推論する。この、車両2の操作θFFの推論を効果的に行うために、特に操作内容推論部41は、後に説明するように機械学習器を備えており、推論した操作θFFに基づいたドライブロボット4の操作の後の時刻における走行状態に基づいて計算された報酬を基に機械学習器を強化学習して操作推論学習モデル50を生成する。操作内容推論部41は、性能測定のために実際に車両2を走行制御させる際には、この学習が完了した操作推論学習モデル50を使用して、車両2の操作θFFを推論する。
また、上記のように、調整係数推論部45は、ある時刻における走行状態を基に、当該時刻よりも後の車両2の調整係数Kp、Ki、Kdを推論する。この、車両2の調整係数Kp、Ki、Kdの推論を効果的に行うために、特に調整係数推論部45は、後に説明するように機械学習器を備えており、推論した調整係数Kp、Ki、Kdに基づいたドライブロボット4の操作の後の時刻における走行状態に基づいて計算された報酬を基に機械学習器を強化学習して調整係数推論学習モデル70を生成する。調整係数推論部45は、性能測定のために実際に車両2を走行制御させる際には、この学習が完了した調整係数推論学習モデル70を使用して、車両2の調整係数Kp、Ki、Kdを推論する。
すなわち、制御装置11は大別して、強化学習時における操作θFF及び調整係数Kp、Ki、Kdの学習と、性能測定のために車両2を走行制御させる際における操作θFF及び調整係数Kp、Ki、Kdの推論の、2通りの動作を行う。説明を簡単にするために、以下ではまず、操作θFF及び調整係Kp、Ki、Kd数の学習時における、制御装置11の各構成要素の説明をした後に、車両2の性能測定に際して操作θFF及び調整係数Kp、Ki、Kdを推論する場合での各構成要素の挙動について説明する。
図2においては、各学習モデル50、70の学習時における、各学習モデル50、70に関連したデータの送受信は破線で示されている。
Next, the learning unit 30 will be described.
As described above, the operation content inference unit 41 infers the operation θ FF of the vehicle 2 after the time based on the traveling state at a certain time. In order to effectively infer the operation θ FF of the vehicle 2, the operation content inference unit 41 is provided with a machine learning device as will be described later, and the drive robot 4 based on the inferred operation θ FF is provided. The machine learning device is strengthened and learned based on the reward calculated based on the running state at the time after the operation of, and the operation inference learning model 50 is generated. When actually controlling the running of the vehicle 2 for performance measurement, the operation content inference unit 41 infers the operation θ FF of the vehicle 2 by using the operation inference learning model 50 for which this learning is completed.
Further, as described above, the adjustment coefficient inference unit 45 infers the adjustment coefficients Kp, Ki, and Kd of the vehicle 2 after the time based on the traveling state at a certain time. In order to effectively infer the adjustment coefficients Kp, Ki, and Kd of the vehicle 2, the adjustment coefficient inference unit 45 is provided with a machine learning device as will be described later, and the inferred adjustment coefficients Kp, Ki, Ki are provided. , The machine learner is strengthened and learned based on the reward calculated based on the running state at the time after the operation of the drive robot 4 based on Kd, and the adjustment coefficient inference learning model 70 is generated. When the adjustment coefficient inference unit 45 actually controls the running of the vehicle 2 for performance measurement, the adjustment coefficient inference learning model 70 for which this learning is completed is used by the adjustment coefficient inference unit 45 to adjust the adjustment coefficients Kp, Ki, Kd of the vehicle 2. Infer.
That is, the control device 11 mainly includes an operation theta FF and adjustment factor Kp during reinforcement learning, Ki, learning and Kd, operation theta FF and adjustment factor Kp in time for travel control of the vehicle 2 for performance measurement, Ki , Kd inference is performed in two ways. In order to simplify the explanation, in the following, first, after explaining each component of the control device 11 at the time of learning the operation θ FF and the coordinators Kp, Ki, and Kd numbers, the operation θ at the time of measuring the performance of the vehicle 2 The behavior of each component when inferring FF and adjustment coefficients Kp, Ki, and Kd will be described.
In FIG. 2, the transmission / reception of data related to the learning models 50 and 70 at the time of learning the learning models 50 and 70 is shown by a broken line.

まず、操作θFF及び調整係数Kp、Ki、Kdの学習時における、学習部30の構成要素の挙動を説明する。
指令車速生成部31は、モードに関する情報に基づいて生成された、指令車速vrefを保持している。指令車速生成部31は指令車速vrefを、車両操作制御部22と推論データ成形部32に送信する。
既に説明したように、車両操作制御部22は、指令車速生成部31から受信した指令車速vrefを基にドライブロボット4を制御して車両2を走行させる。駆動状態取得部23は、要求駆動力Fref、検出エンジン回転数ndet、検出エンジン温度ddet、及び検出車速(車速)vdetを収集し、推論データ成形部32へ送信する。
推論データ成形部32は、駆動状態取得部23から要求駆動力Fref、検出エンジン回転数ndet、検出エンジン温度ddet、及び検出車速vdetを受信する。また、推論データ成形部32は、指令車速生成部31から指令車速vrefを受信する。推論データ成形部32は、これらを併せて走行状態とし、適切に成形した後に、強化学習部40の操作内容推論部41と調整係数推論部45に送信する。
First, the behavior of the components of the learning unit 30 during learning of the operation θ FF and the adjustment coefficients Kp, Ki, and Kd will be described.
The command vehicle speed generation unit 31 holds the command vehicle speed v ref generated based on the information regarding the mode. The command vehicle speed generation unit 31 transmits the command vehicle speed vref to the vehicle operation control unit 22 and the inference data molding unit 32.
As described above, the vehicle operation control unit 22 controls the drive robot 4 based on the command vehicle speed vref received from the command vehicle speed generation unit 31 to drive the vehicle 2. The driving state acquisition unit 23 collects the required driving force F ref , the detected engine speed n det , the detected engine temperature d det , and the detected vehicle speed (vehicle speed) v det , and transmits them to the inference data forming unit 32.
The inference data forming unit 32 receives the required driving force Ref , the detected engine speed n det , the detected engine temperature d det , and the detected vehicle speed v det from the driving state acquisition unit 23. Further, the inference data forming unit 32 receives the command vehicle speed vref from the command vehicle speed generation unit 31. The inference data forming unit 32 puts these together into a running state, and after appropriately forming them, transmits them to the operation content inference unit 41 and the adjustment coefficient inference unit 45 of the reinforcement learning unit 40.

操作内容推論部41は、走行状態を受信すると、これを基に、学習中の操作推論学習モデル50により、車両2を指令車速vrefに従って走行させるための、車両2の操作θFFを推論する。この操作θFFは、操作内容推論部41が次の推論を実行している推論周期Tnnの間は更新されないため、次の推論周期Tnnの間のドライブロボット4の制御に継続して使用される。
本実施形態においては、操作推論学習モデル50は、走行状態の各々に対応する入力ノードを備えた入力層と、複数の中間層、及び車両2の操作θFFに対応する出力ノードを備えた、ニューラルネットワークである。
入力ノードの各々に、対応する走行状態の値が入力されると、重みを基にした演算がなされて、入力ノードの次の段として設けられた中間層の、中間ノードの各々に、演算結果が格納される。このような演算と、次の段の中間ノードへの演算結果の格納が、各中間層に対して順次実行される。最終的には、最終段の中間層内の中間ノードに格納された演算結果を基に、同様な演算がなされ、その結果が車両2の操作θFFとして出力ノードに格納される。
操作内容推論部41は、このようにして生成された車両2の操作θFFを、車両操作制御部22に送信する。
When the operation content inference unit 41 receives the traveling state, the operation inference learning model 50 during learning infers the operation θ FF of the vehicle 2 for driving the vehicle 2 according to the command vehicle speed v ref. .. Since this operation θ FF is not updated during the inference cycle Tnn in which the operation content inference unit 41 is executing the next inference, it is continuously used for controlling the drive robot 4 during the next inference cycle Tnn. ..
In the present embodiment, the operation inference learning model 50 includes an input layer having input nodes corresponding to each of the traveling states, a plurality of intermediate layers, and an output node corresponding to the operation θ FF of the vehicle 2. It is a neural network.
When the corresponding running state value is input to each of the input nodes, the calculation based on the weight is performed, and the calculation result is performed for each of the intermediate nodes of the intermediate layer provided as the next stage of the input node. Is stored. Such an operation and storage of the operation result in the intermediate node of the next stage are sequentially executed for each intermediate layer. Finally, the same calculation is performed based on the calculation result stored in the intermediate node in the middle layer of the final stage, and the result is stored in the output node as the operation θ FF of the vehicle 2.
The operation content inference unit 41 transmits the operation θ FF of the vehicle 2 generated in this way to the vehicle operation control unit 22.

同様に、調整係数推論部45は、走行状態を受信すると、これを基に、学習中の調整係数推論学習モデル70により、車両2を指令車速vrefに従って走行させるための、操作内容推論部41により推論された車両2の操作θFFに適用される調整係数Kp、Ki、Kdを推論する。この調整係数Kp、Ki、Kdは、調整係数推論部45が次の推論を実行している推論周期Tnnの間は更新されないため、次の推論周期Tnnの間のドライブロボット4の制御に継続して使用される。
本実施形態においては、調整係数推論学習モデル70は、走行状態の各々に対応する入力ノードを備えた入力層と、複数の中間層、及び調整係数Kp、Ki、Kdの各々に対応する出力ノードを備えた、ニューラルネットワークである。
入力ノードの各々に、対応する走行状態の値が入力されると、重みを基にした演算がなされて、入力ノードの次の段として設けられた中間層の、中間ノードの各々に、演算結果が格納される。このような演算と、次の段の中間ノードへの演算結果の格納が、各中間層に対して順次実行される。最終的には、最終段の中間層内の中間ノードに格納された演算結果を基に、同様な演算がなされ、その結果が調整係数Kp、Ki、Kdとして出力ノードに格納される。
調整係数推論部45は、このようにして生成された調整係数Kp、Ki、Kdを、車両操作制御部22に送信する。
Similarly, when the adjustment coefficient inference unit 45 receives the traveling state, the adjustment coefficient inference unit 45 for driving the vehicle 2 according to the command vehicle speed vref by the adjustment coefficient inference learning model 70 under learning based on the traveling state, the operation content inference unit 41. The adjustment coefficients Kp, Ki, and Kd applied to the operation θ FF of the vehicle 2 inferred by the above are inferred. Since the adjustment coefficients Kp, Ki, and Kd are not updated during the inference cycle Tnn in which the adjustment coefficient inference unit 45 is executing the next inference, the adjustment coefficients Kp, Ki, and Kd continue to be controlled by the drive robot 4 during the next inference cycle Tnn. Is used.
In the present embodiment, the adjustment coefficient inference learning model 70 includes an input layer having an input node corresponding to each of the traveling states, a plurality of intermediate layers, and an output node corresponding to each of the adjustment coefficients Kp, Ki, and Kd. It is a neural network equipped with.
When the corresponding running state value is input to each of the input nodes, the calculation based on the weight is performed, and the calculation result is performed for each of the intermediate nodes of the intermediate layer provided as the next stage of the input node. Is stored. Such an operation and storage of the operation result in the intermediate node of the next stage are sequentially executed for each intermediate layer. Finally, the same operation is performed based on the operation result stored in the intermediate node in the intermediate layer of the final stage, and the result is stored in the output node as the adjustment coefficients Kp, Ki, and Kd.
The adjustment coefficient inference unit 45 transmits the adjustment coefficients Kp, Ki, and Kd thus generated to the vehicle operation control unit 22.

上記のような、操作内容推論部41と調整係数推論部45における、車両2の操作θFFと調整係数Kp、Ki、Kdの推論は、推論周期Tnnごとに行われる。操作推論学習モデル50と調整係数推論学習モデル70の各々は、一度の推論で、次の推論周期Tnnの間に使用される車両2の操作θFFと調整係数Kp、Ki、Kdのみを推論し、より将来の推論は行わない。更に次の推論周期Tnnに使用される車両2の操作θFFと調整係数Kp、Ki、Kdは、次の推論において導出される。
車両操作制御部22は、これらの推論された車両2の操作θFFと調整係数Kp、Ki、Kdを、推論周期Tnnごとに受信して更新する。車両操作制御部22は、次の推論周期Tnn後の時刻までの間、更新された最新の車両2の操作θFFと調整係数Kp、Ki、Kdを基に、刻々と変化する走行状態を随時入力して調整後操作θrefを生成し、調整後操作θrefに基づきドライブロボット4を制御する。
操作推論学習モデル50と調整係数推論学習モデル70の学習、すなわち誤差逆伝搬法、確率的勾配降下法によるニューラルネットワークを構成する各パラメータの値の調整は、現段階においては行われず、操作推論学習モデル50と調整係数推論学習モデル70は車両2の操作θFFと調整係数Kp、Ki、Kdを推論するのみである。操作推論学習モデル50と調整係数推論学習モデル70の学習は、後に、第1及び第2行動価値推論学習モデル60、80の学習に伴って行われる。
The inference of the operation θ FF of the vehicle 2 and the adjustment coefficients Kp, Ki, and Kd in the operation content inference unit 41 and the adjustment coefficient inference unit 45 as described above is performed for each inference cycle Tnn. Each of the operation inference learning model 50 and the adjustment coefficient inference learning model 70 infers only the operation θ FF of the vehicle 2 and the adjustment coefficients Kp, Ki, and Kd used during the next inference cycle Tnn in one inference. , No further inferences are made. Further, the operation θ FF of the vehicle 2 and the adjustment coefficients Kp, Ki, and Kd used in the next inference cycle Tnn are derived in the next inference.
The vehicle operation control unit 22 receives and updates the operation θ FF of the inferred vehicle 2 and the adjustment coefficients Kp, Ki, and Kd for each inference cycle Tnn. The vehicle operation control unit 22 constantly changes the running state based on the latest updated operation θ FF of the vehicle 2 and the adjustment coefficients Kp, Ki, and Kd until the time after the next inference cycle Tnn. input and generates an adjusted operating theta ref, controls the drive robot 4 based on the adjusted operating theta ref.
Operational inference learning model 50 and adjustment coefficient Inference learning model 70 learning, that is, adjustment of the values of each parameter constituting the neural network by the error back propagation method and the stochastic gradient descent method is not performed at this stage, and the operation inference learning is performed. Model 50 and adjustment coefficient inference The learning model 70 only infers the operation θ FF of the vehicle 2 and the adjustment coefficients Kp, Ki, and Kd. The learning of the operation inference learning model 50 and the adjustment coefficient inference learning model 70 is later performed in association with the learning of the first and second action value inference learning models 60 and 80.

操作推論学習モデル50と調整係数推論学習モデル70の推論結果を基にドライブロボット4が制御された結果、車両2の走行状態が変更される。駆動状態取得部23は、この変更後の走行状態を、車両2の操作θFFと調整係数Kp、Ki、Kdが適用された後の、次の走行状態として取得する。
報酬計算部43は、操作推論学習モデル50と調整係数推論学習モデル70の強化学習に使用される報酬を計算する。
より詳細には、操作報酬計算部44は、走行状態と、これに対応して操作推論学習モデル50により推論された操作θFF、及び当該操作θFFを基に新たに生成された次の走行状態を基に、適切に設計された式により報酬を計算する。また、調整係数報酬計算部47は、走行状態と、これに対応して調整係数推論学習モデル70により推論された調整係数Kp、Ki、Kd、及び当該調整係数Kp、Ki、Kdを基に新たに生成された次の走行状態を基に、適切に設計された式により報酬を計算する。
本実施形態においては、推論周期Tnnよりも制御周期Tdrが短いため、推論周期Tnnの間に制御周期Tdr間隔で複数回、ドライブロボット4が制御される。これに伴い、本実施形態における報酬は、この複数回の各制御の後における指令車速vrefと検出車速vdetの誤差を平均した値の、絶対値として設定されている。すなわち、本実施形態においては、上記のような絶対値を計算し、これが0に近いほど、高い報酬となるように設計されている。
後述する第1及び第2行動価値推論学習モデル60、80は、行動価値を、報酬が小さいほどこれが高くするように計算し、操作推論学習モデル50と調整係数推論学習モデル70はこれらの行動価値が高くなるような操作θFFや調整係数Kp、Ki、Kdを出力するように、強化学習が行われる。
As a result of controlling the drive robot 4 based on the inference results of the operation inference learning model 50 and the adjustment coefficient inference learning model 70, the running state of the vehicle 2 is changed. The drive state acquisition unit 23 acquires the changed running state as the next running state after the operation θ FF of the vehicle 2 and the adjustment coefficients Kp, Ki, and Kd are applied.
The reward calculation unit 43 calculates the reward used for reinforcement learning of the operation reasoning learning model 50 and the adjustment coefficient reasoning learning model 70.
More specifically, the operation reward calculation unit 44 includes the running state, the operation θ FF inferred by the operation inference learning model 50 corresponding to the running state, and the next running newly generated based on the operation θ FF. Based on the condition, the reward is calculated by a well-designed formula. Further, the adjustment coefficient reward calculation unit 47 is newly added based on the running state, the adjustment coefficients Kp, Ki, Kd inferred by the adjustment coefficient inference learning model 70 corresponding to the running state, and the adjustment coefficients Kp, Ki, Kd. Based on the next running condition generated in, the reward is calculated by a properly designed formula.
In the present embodiment, since the control cycle Tdr is shorter than the inference cycle Tnn, the drive robot 4 is controlled a plurality of times at the control cycle Tdr interval during the inference cycle Tnn. Along with this, the reward in the present embodiment is set as an absolute value of the average value of the errors of the command vehicle speed v ref and the detected vehicle speed v det after each of the plurality of controls. That is, in the present embodiment, the absolute value as described above is calculated, and the closer it is to 0, the higher the reward is designed.
The first and second action value inference learning models 60 and 80, which will be described later, calculate the action value so that the smaller the reward, the higher the action value, and the operation inference learning model 50 and the adjustment coefficient inference learning model 70 calculate these action values. Reinforcement learning is performed so as to output the operation θ FF and the adjustment coefficients Kp, Ki, and Kd that increase the value.

操作報酬計算部44は、走行状態、これに対応して推論された操作θFF、当該操作θFFを基に新たに生成された次の走行状態、及び計算した報酬を、学習データ成形部33に送信する。学習データ成形部33は、これらを適切に成形して学習データ記憶部35に保存する。これらのデータは、後述する第1行動価値推論学習モデル60の学習に使用される。
また、調整係数推論部45は、走行状態、これに対応して推論された調整係数Kp、Ki、Kd、当該調整係数Kp、Ki、Kdを基に新たに生成された次の走行状態、及び計算した報酬を、学習データ成形部33に送信する。学習データ成形部33は、これらを適切に成形して学習データ記憶部35に保存する。これらのデータは、後述する第2行動価値推論学習モデル80の学習に使用される。
このようにして、操作θFFと調整係数Kp、Ki、Kdの推論と、この推論結果に対応した、次の走行状態の取得、及び報酬の計算が、第1及び第2行動価値推論学習モデル60、80の学習に十分なデータが蓄積されるまで、繰り返し行われる。
The operation reward calculation unit 44 uses the learning data forming unit 33 to obtain the running state, the operation θ FF inferred corresponding to the running state, the next running state newly generated based on the operation θ FF, and the calculated reward. Send to. The learning data forming unit 33 appropriately forms these and stores them in the learning data storage unit 35. These data are used for learning the first action value inference learning model 60, which will be described later.
Further, the adjustment coefficient inferring unit 45 includes a traveling state, an adjustment coefficient Kp, Ki, Kd inferred corresponding to the traveling state, a next traveling state newly generated based on the adjustment coefficient Kp, Ki, Kd, and an adjustment coefficient inferring unit 45. The calculated reward is transmitted to the learning data forming unit 33. The learning data forming unit 33 appropriately forms these and stores them in the learning data storage unit 35. These data are used for learning the second action value inference learning model 80, which will be described later.
In this way, the inference of the operation θ FF and the adjustment coefficients Kp, Ki, and Kd, the acquisition of the next running state corresponding to the inference result, and the calculation of the reward are the first and second action value inference learning models. It is repeated until sufficient data is accumulated for learning 60 and 80.

学習データ記憶部35に、第1行動価値推論学習モデル60の学習に十分な量の走行データが蓄積されると、第1行動価値推論部42は第1行動価値推論学習モデル60を学習する。第1行動価値推論学習モデル60は、機械学習器が学習されることにより、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される、適切な学習パラメータが学習された学習済みモデルとなる。
強化学習部40は全体として、操作推論学習モデル50が推論した操作θFFがどの程度適切であったかを示す行動価値を計算し、操作推論学習モデル50が、この行動価値が高くなるような操作θFFを出力するように、強化学習を行う。行動価値は、走行状態と、これに対する操作θFFを引数として、報酬が大きいほど行動価値を高くするように設計された関数として表わされる。本実施形態においては、この関数の計算を、走行状態と操作θFFを入力として、行動価値を出力するように設計された、関数近似器としての第1行動価値推論学習モデル60により行う。
When a sufficient amount of running data for learning the first action value inference learning model 60 is accumulated in the learning data storage unit 35, the first action value inference learning unit 42 learns the first action value inference learning model 60. The first action value inference learning model 60 becomes a learned model in which appropriate learning parameters are learned, which is used as a program module that is a part of artificial intelligence software by learning a machine learning device.
As a whole, the reinforcement learning unit 40 calculates the action value indicating how appropriate the operation θ FF inferred by the operation inference learning model 50 is, and the operation inference learning model 50 increases the action value θ. Reinforcement learning is performed so as to output FF. The action value is expressed as a function designed so that the larger the reward, the higher the action value, with the running state and the operation θ FF for it as arguments. In the present embodiment, the calculation of this function is performed by the first action value inference learning model 60 as a function approximation device designed to output the action value by inputting the running state and the operation θ FF.

操作学習データ生成部34は、学習データ記憶部35内の学習データを成形して、第1行動価値推論部42へ送信する。
第1行動価値推論部42は、成形された学習データを受信し、第1行動価値推論学習モデル60を機械学習させる。
本実施形態においては、第1行動価値推論学習モデル60は、走行状態と操作θFFの各々に対応する入力ノードを備えた入力層と、複数の中間層、及び操作θFFに関する行動価値に対応する出力ノードを備えた、ニューラルネットワークである。第1行動価値推論学習モデル60は、操作推論学習モデル50と同様な構造のニューラルネットワークにより実現されているため、構造上の詳細な説明を割愛する。
The operation learning data generation unit 34 forms the learning data in the learning data storage unit 35 and transmits it to the first action value inference unit 42.
The first action value inference unit 42 receives the formed learning data and causes the first action value inference learning model 60 to be machine-learned.
In the present embodiment, the first action value inference learning model 60 corresponds to an input layer having input nodes corresponding to each of the running state and the operation θ FF , a plurality of intermediate layers, and the action value related to the operation θ FF. It is a neural network with an output node to do. Since the first action value inference learning model 60 is realized by a neural network having the same structure as the operation inference learning model 50, detailed structural explanation is omitted.

操作報酬計算部44は、TD(Temporal Difference)誤差、すなわち、操作θFFを基にした制御を行う前の行動価値と、制御後の行動価値の誤差を小さくして、行動価値として適切な値が出力されるように、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値を、誤差逆伝搬法、確率的勾配降下法により調整する。このように、現状の操作推論学習モデル50によって推論された操作θFFを適切に評価できるように、第1行動価値推論学習モデル60を学習させる。 The operation reward calculation unit 44 reduces the error of the TD (Temporal Difference) error, that is, the error between the action value before performing the control based on the operation θ FF and the action value after the control, and sets an appropriate value as the action value. Is output, the values of each parameter constituting the neural network, such as the weight and bias values, are adjusted by the error back propagation method and the stochastic gradient descent method. In this way, the first action value inference learning model 60 is trained so that the operation θ FF inferred by the current operation inference learning model 50 can be appropriately evaluated.

また、同様に、学習データ記憶部35に、調整係数推論学習モデル70の学習に十分な量の走行データが蓄積されると、調整係数推論部45は第2行動価値推論学習モデル80を学習する。第2行動価値推論学習モデル80は、機械学習器が学習されることにより、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される、適切な学習パラメータが学習された学習済みモデルとなる。
強化学習部40は全体として、調整係数推論学習モデル70が推論した調整係数Kp、Ki、Kdがどの程度適切であったかを示す行動価値を計算し、調整係数推論学習モデル70が、この行動価値が高くなるような調整係数Kp、Ki、Kdを出力するように、強化学習を行う。行動価値は、走行状態と、これに対する調整係数Kp、Ki、Kdを引数として、報酬が大きいほど行動価値を高くするように設計された関数として表わされる。本実施形態においては、この関数の計算を、走行状態と調整係数Kp、Ki、Kdを入力として、行動価値を出力するように設計された、関数近似器としての第2行動価値推論学習モデル80により行う。
Similarly, when a sufficient amount of running data for learning the adjustment coefficient inference learning model 70 is accumulated in the learning data storage unit 35, the adjustment coefficient inference unit 45 learns the second action value inference learning model 80. .. The second action value inference learning model 80 becomes a learned model in which appropriate learning parameters are learned, which is used as a program module that is a part of artificial intelligence software by learning a machine learning device.
As a whole, the reinforcement learning unit 40 calculates the action value indicating how appropriate the adjustment coefficients Kp, Ki, and Kd inferred by the adjustment coefficient inference learning model 70 are, and the adjustment coefficient inference learning model 70 determines this action value. Reinforcement learning is performed so as to output the adjustment coefficients Kp, Ki, and Kd that increase. The action value is expressed as a function designed so that the larger the reward, the higher the action value, with the running state and the adjustment coefficients Kp, Ki, and Kd for the running state as arguments. In the present embodiment, the second action value inference learning model 80 as a function approximator is designed to output the action value by inputting the running state and the adjustment coefficients Kp, Ki, and Kd for the calculation of this function. To do.

調整係数学習データ生成部36は、学習データ記憶部35内の学習データを成形して、第2行動価値推論部46へ送信する。
第2行動価値推論部46は、成形された学習データを受信し、第2行動価値推論学習モデル80を機械学習させる。
本実施形態においては、第2行動価値推論学習モデル80は、走行状態と調整係数Kp、Ki、Kdの各々に対応する入力ノードを備えた入力層と、複数の中間層、及び調整係数Kp、Ki、Kdに関する行動価値に対応する出力ノードを備えた、ニューラルネットワークである。第2行動価値推論学習モデル80は、調整係数推論学習モデル70と同様な構造のニューラルネットワークにより実現されているため、構造上の詳細な説明を割愛する。
The adjustment coefficient learning data generation unit 36 forms the learning data in the learning data storage unit 35 and transmits it to the second action value inference unit 46.
The second action value inference unit 46 receives the formed learning data and causes the second action value inference learning model 80 to be machine-learned.
In the present embodiment, the second action value inference learning model 80 includes an input layer having input nodes corresponding to the running state and the adjustment coefficients Kp, Ki, and Kd, a plurality of intermediate layers, and an adjustment coefficient Kp. It is a neural network provided with output nodes corresponding to the action values related to Ki and Kd. Since the second action value inference learning model 80 is realized by a neural network having the same structure as the adjustment coefficient inference learning model 70, detailed structural explanation is omitted.

調整係数推論部45は、TD誤差、すなわち、調整係数Kp、Ki、Kdを基にした制御を行う前の行動価値と、制御後の行動価値の誤差を小さくして、行動価値として適切な値が出力されるように、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値を、誤差逆伝搬法、確率的勾配降下法により調整する。このように、現状の調整係数推論学習モデル70によって推論された調整係数Kp、Ki、Kdを適切に評価できるように、第2行動価値推論学習モデル80を学習させる。 The adjustment coefficient inference unit 45 reduces the TD error, that is, the error between the action value before performing control based on the adjustment coefficients Kp, Ki, and Kd and the action value after control, and sets an appropriate value as the action value. Is output, the values of each parameter constituting the neural network, such as the weight and bias values, are adjusted by the error back propagation method and the stochastic gradient descent method. In this way, the second action value inference learning model 80 is trained so that the adjustment coefficients Kp, Ki, and Kd inferred by the current adjustment coefficient inference learning model 70 can be appropriately evaluated.

第1及び第2行動価値推論学習モデル60、80の学習が進むと、第1及び第2行動価値推論学習モデル60、80の各々は、より適切な行動価値の値を出力するようになる。すなわち、第1及び第2行動価値推論学習モデル60、80の各々が出力する行動価値の値が学習前とは変わるため、これに伴い、行動価値が高くなるような操作θFFと調整係数Kp、Ki、Kdを出力するように設計された操作推論学習モデル50と調整係数推論学習モデル70の各々を更新する必要がある。このため、操作内容推論部41と調整係数推論部45は、操作推論学習モデル50と調整係数推論学習モデル70を学習する。
具体的には、操作内容推論部41と調整係数推論部45の各々は、例えば行動価値の負値を損失関数とし、これをできるだけ小さくするような、すなわち行動価値が大きくなるような操作θFFと調整係数Kp、Ki、Kdを出力するように、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値を、誤差逆伝搬法、確率的勾配降下法により調整して、操作推論学習モデル50と調整係数推論学習モデル70の各々を学習させる。
操作推論学習モデル50と調整係数推論学習モデル70の各々が学習され更新されると、出力される操作θFFと調整係数Kp、Ki、Kdが変化するため、再度走行データを蓄積し、これを基に第1及び第2行動価値推論学習モデル60、80を学習する。
このように、学習部30は、操作推論学習モデル50及び調整係数推論学習モデル70と、第1及び第2行動価値推論学習モデル60、80との学習を互いに繰り返すことにより、これら学習モデル50、60、70、80を強化学習する。
学習部30は、この強化学習を、所定の学習終了基準を満たすまで実行する。
As the learning of the first and second action value inference learning models 60 and 80 progresses, each of the first and second action value inference learning models 60 and 80 outputs a more appropriate action value value. That is, since the action value values output by each of the first and second action value inference learning models 60 and 80 are different from those before learning, the operation θ FF and the adjustment coefficient Kp that increase the action value accordingly. It is necessary to update each of the operation inference learning model 50 and the adjustment coefficient inference learning model 70 designed to output, Ki, and Kd. Therefore, the operation content inference unit 41 and the adjustment coefficient inference unit 45 learn the operation inference learning model 50 and the adjustment coefficient inference learning model 70.
Specifically, each of the operation content inference unit 41 and the adjustment coefficient inference unit 45 uses, for example, a negative value of the action value as a loss function, and makes it as small as possible, that is, an operation θ FF that increases the action value. And adjustment coefficients Kp, Ki, Kd are output, and the values of each parameter that composes the neural network, such as the weight and bias values, are adjusted by the error back propagation method and the stochastic gradient descent method, and the operation inference learning is performed. Each of the model 50 and the adjustment coefficient inference learning model 70 is trained.
When each of the operation inference learning model 50 and the adjustment coefficient inference learning model 70 is learned and updated, the output operation θ FF and the adjustment coefficients Kp, Ki, and Kd change. Based on this, the first and second behavioral value inference learning models 60 and 80 are learned.
In this way, the learning unit 30 repeats learning between the operation inference learning model 50 and the adjustment coefficient inference learning model 70, and the first and second action value inference learning models 60 and 80, thereby causing the learning model 50, Reinforcement learning of 60, 70, 80.
The learning unit 30 executes this reinforcement learning until a predetermined learning end criterion is satisfied.

次に、車両2の性能測定に際して操作θFFと調整係数Kp、Ki、Kdを推論する場合での、すなわち、操作推論学習モデル50と調整係数推論学習モデル70の強化学習が終了した後における、学習部30の各構成要素の挙動について説明する。 Next, in the case of inferring the operation θ FF and the adjustment coefficients Kp, Ki, and Kd when measuring the performance of the vehicle 2, that is, after the reinforcement learning of the operation inference learning model 50 and the adjustment coefficient inference learning model 70 is completed. The behavior of each component of the learning unit 30 will be described.

指令車速生成部31は指令車速vrefを、ドライブロボット制御部20と推論データ成形部32に送信する。
ドライブロボット制御部20は、要求駆動力Fref、検出エンジン回転数ndet、検出エンジン温度ddet、及び検出車速(車速)vdetを、推論データ成形部32へ送信する。
推論データ成形部32は、要求駆動力Fref、検出エンジン回転数ndet、検出エンジン温度ddet、及び検出車速(車速)vdet、及び指令車速vrefを走行状態として受信し、適切に成形した後に、強化学習部40の操作内容推論部41と調整係数推論部45に送信する。
操作内容推論部41は、走行状態を受信すると、これを基に、学習が完了した操作推論学習モデル50により、次の推論周期Tnnの間、車両を指令車速vrefに従って走行させるための、車両2の操作θFFを推論する。
同様に、調整係数推論部45は、走行状態を受信すると、これを基に、学習中の調整係数推論学習モデル70により、次の推論周期Tnnの間、車両を指令車速vrefに従って走行させるための、操作内容推論部41により推論された車両2の操作θFFに適用される調整係数Kp、Ki、Kdを推論する。
The command vehicle speed generation unit 31 transmits the command vehicle speed vref to the drive robot control unit 20 and the inference data molding unit 32.
The drive robot control unit 20 transmits the required driving force Ref , the detected engine speed n det , the detected engine temperature d det , and the detected vehicle speed (vehicle speed) v det to the inference data forming unit 32.
The inference data forming unit 32 receives the required driving force F ref , the detected engine rotation number n det , the detected engine temperature d det , the detected vehicle speed (vehicle speed) v det , and the commanded vehicle speed v ref as the traveling state, and appropriately forms the data. After that, it is transmitted to the operation content inference unit 41 and the adjustment coefficient inference unit 45 of the reinforcement learning unit 40.
Operation content inference unit 41 receives the running condition, based on this, the operation inference learning model 50 completion of the learning, during the next inference cycle Tnn, for running the vehicle in accordance with a command vehicle speed v ref, vehicle Infer the operation θ FF of 2.
Similarly, adjustment coefficient inference unit 45 receives the running condition, based on this, the adjustment coefficient inference learning model 70 in the training, during the next inference cycle Tnn, for running the vehicle in accordance with a command vehicle speed v ref The adjustment coefficients Kp, Ki, and Kd applied to the operation θ FF of the vehicle 2 inferred by the operation content inference unit 41 are inferred.

フィードバック操作量演算部26は、推論された調整係数Kp、Ki、Kd、すなわち比例ゲインKp、積分ゲインKi、及び微分ゲインKdを基に、推論周期Tnnより短い制御周期Tdr間隔で、PID制御により、調整量θFBを演算する。この演算において使用される調整係数Kp、Ki、Kdは、制御周期Tdrよりも長い推論周期Tnn間隔で、調整係数推論部45によって推論され、更新される。
操作補完部24は、フィードバック操作量演算部26から調整量θFBを受信し、推論された車両2の操作θFFを基に、推論周期Tnnより短い制御周期Tdr間隔で、調整後操作θrefを計算する。この演算において使用される車両2の操作θFFは、制御周期Tdrよりも長い推論周期Tnn間隔で、操作内容推論部41によって推論され、更新される。
操作補完部24は、この調整後操作θrefを、ドライブロボット4に送信する。ドライブロボット4は、調整後操作θrefを基にアクチュエータ4cを駆動させてアクセルペダル2cを操作することにより、アクセル開度を変更する。
The feedback manipulated variable calculation unit 26 is based on the inferred adjustment coefficients Kp, Ki, Kd, that is, the proportional gain Kp, the integral gain Ki, and the differential gain Kd, and is controlled by PID at a control cycle Tdr interval shorter than the inference cycle Tnn. , The adjustment amount θ FB is calculated. The adjustment coefficients Kp, Ki, and Kd used in this calculation are inferred and updated by the adjustment coefficient inference unit 45 at intervals of inference period Tnn longer than the control period Tdr.
The operation complement unit 24 receives the adjustment amount θ FB from the feedback operation amount calculation unit 26, and based on the inferred operation θ FF of the vehicle 2, the operation complement unit 24 receives the adjustment amount θ ref at a control cycle Tdr interval shorter than the inference cycle Tnn. To calculate. The operation θ FF of the vehicle 2 used in this calculation is inferred and updated by the operation content inference unit 41 at an inference cycle Tnn interval longer than the control cycle Tdr.
The operation complement unit 24 transmits this adjusted operation θ ref to the drive robot 4. The drive robot 4 changes the accelerator opening degree by driving the actuator 4c based on the adjusted operation θ ref and operating the accelerator pedal 2c.

次に、図1〜図3、及び図4、5を用いて、上記のドライブロボット4の制御装置11によりドライブロボット4を制御する方法を説明する。図4は、ドライブロボット4の制御方法における、学習時のフローチャートである。図5は、ドライブロボット4の制御方法における、性能測定のために車両2を走行制御させる際のフローチャートである。
まず、図4を用いて、学習時における動作を説明する。
Next, a method of controlling the drive robot 4 by the control device 11 of the drive robot 4 will be described with reference to FIGS. 1 to 3 and 4 and 5. FIG. 4 is a flowchart at the time of learning in the control method of the drive robot 4. FIG. 5 is a flowchart in the control method of the drive robot 4 when the vehicle 2 is controlled to travel for performance measurement.
First, the operation at the time of learning will be described with reference to FIG.

学習が開始されると(ステップS1)、各学習モデル50、60、70、80等の各パラメータが初期設定される(ステップS3)。
その後、車両2の走行データを収集する(ステップS5)。より詳細には、制御装置11が、学習がまだ終了していない、学習途中の操作推論学習モデル50、調整係数推論学習モデル70によって推論された車両2の操作θFFと調整係数Kp、Ki、Kdによって車両2を走行制御することにより、走行データが蓄積される。
When learning is started (step S1), each parameter of each learning model 50, 60, 70, 80 and the like is initialized (step S3).
After that, the traveling data of the vehicle 2 is collected (step S5). More specifically, the control device 11 has not yet completed learning, the operation inference learning model 50 in the middle of learning, the operation θ FF of the vehicle 2 inferred by the adjustment coefficient inference learning model 70, and the adjustment coefficients Kp, Ki, By controlling the running of the vehicle 2 by Kd, the running data is accumulated.

十分な走行データが学習データ記憶部35に蓄積されると、これを用いて、操作推論学習モデル50と調整係数推論学習モデル70を強化学習し、学習モデル50、70を更新する(ステップS7)。
操作推論学習モデル50と調整係数推論学習モデル70の更新が終了すると、これら操作推論学習モデル50と調整係数推論学習モデル70の学習が終了したか否かを判定する(ステップS9)。
学習が終了していないと判定された場合には(ステップS9のNo)、ステップS5へ遷移する。すなわち、制御装置11は走行データを更に収集し、これを用いた操作推論学習モデル50と調整係数推論学習モデル70の更新を繰り返す。
学習が終了したと判定された場合には(ステップS9のYes)、学習処理を終了する(ステップS11)。
When sufficient running data is accumulated in the learning data storage unit 35, the operation inference learning model 50 and the adjustment coefficient inference learning model 70 are strengthened and learned by using the learning data storage unit 35, and the learning models 50 and 70 are updated (step S7). ..
When the update of the operation inference learning model 50 and the adjustment coefficient inference learning model 70 is completed, it is determined whether or not the learning of the operation inference learning model 50 and the adjustment coefficient inference learning model 70 is completed (step S9).
If it is determined that the learning has not been completed (No in step S9), the process proceeds to step S5. That is, the control device 11 further collects the traveling data, and repeats the update of the operation inference learning model 50 and the adjustment coefficient inference learning model 70 using the travel data.
When it is determined that the learning is completed (Yes in step S9), the learning process is ended (step S11).

次に、図5を用いて、実際に車両2の性能測定に際して車両2の操作θFFと調整係数Kp、Ki、Kdを推論する場合での、すなわち、操作推論学習モデル50と調整係数推論学習モデル70の強化学習が終了した後において、車両2を走行制御する際の動作について説明する。 Next, using FIG. 5, when actually inferring the operation θ FF of the vehicle 2 and the adjustment coefficients Kp, Ki, and Kd when actually measuring the performance of the vehicle 2, that is, the operation inference learning model 50 and the adjustment coefficient inference learning. The operation when the vehicle 2 is controlled to travel after the reinforcement learning of the model 70 is completed will be described.

車両2が走行を開始すると(ステップS51)、走行環境が初期設定され、制御装置11は、この時点での走行状態を初期状態として観測する(ステップS53)。
推論データ成形部32は、走行状態を適切に成形した後に、強化学習部40の操作内容推論部41と調整係数推論部45に送信する。
操作内容推論部41は、走行状態を受信すると、これを基に、次の推論周期Tnnの間、車両を指令車速vrefに従って走行させるための、車両2の操作θFFを推論する。
同様に、調整係数推論部45は、走行状態を受信すると、これを基に、次の推論周期Tnnの間、車両を指令車速vrefに従って走行させるための、操作内容推論部41により推論された車両2の操作θFFに適用される調整係数Kp、Ki、Kdを推論する(ステップS55)。
When the vehicle 2 starts traveling (step S51), the traveling environment is initially set, and the control device 11 observes the traveling state at this point as the initial state (step S53).
The inference data forming unit 32 appropriately forms the running state, and then transmits the operation content inference unit 41 and the adjustment coefficient inference unit 45 of the reinforcement learning unit 40.
When the operation content inference unit 41 receives the traveling state, the operation content inference unit 41 infers the operation θ FF of the vehicle 2 for driving the vehicle according to the command vehicle speed v ref during the next inference cycle Tnn based on the traveling state.
Similarly, adjustment coefficient inference unit 45 receives the running condition, based on this, during the next inference cycle Tnn, for running the vehicle in accordance with a command vehicle speed v ref, inferred by the operation content inference unit 41 The adjustment coefficients Kp, Ki, and Kd applied to the operation θ FF of the vehicle 2 are inferred (step S55).

フィードバック操作量演算部26は、推論周期Tnnより短い制御周期Tdr間隔で、推論された調整係数Kp、Ki、Kdを基に、PID制御により、調整量θFBを演算する。
操作補完部24は、推論周期Tnnより短い制御周期Tdr間隔で、フィードバック操作量演算部26から調整量θFBを受信し、推論された車両2の操作θFFを基に、調整後操作θrefを計算する。
操作補完部24は、この調整後操作θrefを、ドライブロボット4に送信する。ドライブロボット4は、調整後操作θrefを基にアクチュエータ4cを駆動させてアクセルペダル2cを操作することにより、アクセル開度を変更する。
そして、駆動状態取得部23は、操作後の車両2の走行状態を、ステップS53と同様な要領で、再度取得する(ステップS57)。
駆動状態取得部23は、操作後の車両2の走行状態を、学習部30へ送信する。
The feedback manipulated variable calculation unit 26 calculates the adjusted variable θ FB by PID control based on the inferred adjustment coefficients Kp, Ki, and Kd at a control cycle Tdr interval shorter than the inference cycle Tnn.
The operation complement unit 24 receives the adjustment amount θ FB from the feedback operation amount calculation unit 26 at a control cycle Tdr interval shorter than the inference cycle Tnn, and based on the inferred operation θ FF of the vehicle 2, the operation complement unit 24 after adjustment θ ref. To calculate.
The operation complement unit 24 transmits this adjusted operation θ ref to the drive robot 4. The drive robot 4 changes the accelerator opening degree by driving the actuator 4c based on the adjusted operation θ ref and operating the accelerator pedal 2c.
Then, the drive state acquisition unit 23 acquires the running state of the vehicle 2 after the operation again in the same manner as in step S53 (step S57).
The drive state acquisition unit 23 transmits the running state of the vehicle 2 after the operation to the learning unit 30.

制御装置11は、車両2の走行が終了したか否かを判定する(ステップS59)。
走行が終了していないと判定された場合には(ステップS59のNo)、ステップS55へ遷移する。すなわち、制御装置11は、ステップS57で取得した走行状態を基にした操作θFFと調整係数Kp、Ki、Kdの推論と、更なる走行状態の観測を繰り返す。
走行が終了したと判定された場合には(ステップS59のYes)、走行処理を終了する(ステップS61)。
The control device 11 determines whether or not the running of the vehicle 2 has been completed (step S59).
If it is determined that the running has not been completed (No in step S59), the process proceeds to step S55. That is, the control device 11 repeats the operation θ FF based on the traveling state acquired in step S57, the inference of the adjustment coefficients Kp, Ki, and Kd, and the observation of the further traveling state.
When it is determined that the running is completed (Yes in step S59), the running process is finished (step S61).

次に、上記のドライブロボット4の制御装置及び制御方法の効果について説明する。 Next, the effects of the control device and the control method of the drive robot 4 will be described.

本実施形態のドライブロボット4の制御装置11は、車両2に搭載されて車両2を走行させるドライブロボット(自動操縦ロボット)4を、車両2が規定された指令車速vrefに従って走行するように制御する、ドライブロボット4の制御装置11であって、車速vdetと指令車速vrefを含む、車両2の走行状態を基に、車両2を指令車速vrefに従って走行させるような車両2の操作θFFを推論するように、機械学習器を強化学習して生成された操作推論学習モデル50により、操作θFFを推論周期(第1の周期)Tnnで推論する操作内容推論部41と、走行状態を基に、操作内容推論部41により推論された操作θFFを推論周期Tnnの間に調整する、調整係数Kp、Ki、Kdを推論するように、機械学習器を強化学習して生成された調整係数推論学習モデル70により、調整係数Kp、Ki、Kdを推論する調整係数推論部45と、推論周期Tnnの間に、調整係数Kp、Ki、Kdにより操作θFFを調整して調整後操作θrefを生成し、当該調整後操作θrefに基づきドライブロボット4を制御する車両操作制御部22と、を備えている。
また、本実施形態のドライブロボット4の制御方法は、車両2に搭載されて車両2を走行させるドライブロボット(自動操縦ロボット)4を、車両2が規定された指令車速vrefに従って走行するように制御する、ドライブロボット4の制御方法であって、車速vdetと指令車速vrefを含む、車両2の走行状態を基に、車両2を指令車速vrefに従って走行させるような車両2の操作θFFを推論するように、機械学習器を強化学習して生成された操作推論学習モデル50により、操作θFFを推論周期(第1の周期)Tnnで推論し、走行状態を基に、推論された操作θFFを推論周期Tnnの間に調整する、調整係数Kp、Ki、Kdを推論するように、機械学習器を強化学習して生成された調整係数推論学習モデル70により、調整係数Kp、Ki、Kdを推論し、推論周期Tnnの間に、調整係数Kp、Ki、Kdにより操作θFFを調整して調整後操作θrefを生成し、当該調整後操作θrefに基づきドライブロボット4を制御する。
上記のような構成によれば、操作推論学習モデル50は、車速vdetと指令車速vrefを含む、車両2の走行状態を基に、車両2を指令車速vrefに従って走行させるような車両2の操作θFFを推論するように強化学習されている。このため、少なくとも操作推論学習モデル50が車両2の操作θFFを推論する周期である推論周期Tnnおきに、車両2を指令車速vrefに精度よく追従させるような車両2の操作θFFが出力される。
ここで、上記のような操作推論学習モデル50は、演算量が多くなる傾向がある。したがって、ドライブロボット4の制御周期Tdrよりも推論周期Tnnは長くなり、一つの推論周期Tnn内に、複数の制御時刻が含まれる。このため、車両2の操作θFFは、制御時刻の各々に個別に対応するように出力されない。このような場合に、複数の制御時刻の各々に同一の車両2の操作θFFを適用すると、緻密な制御ができず、指令車速への追従性が向上しない。
これに対し、本実施形態においては、走行状態を基に、推論周期Tnnの間、推論された操作θFFを調整する、調整係数Kp、Ki、Kdを推論するように強化学習されている調整係数推論学習モデル70により、調整係数Kp、Ki、Kdが推論される。すなわち、推論周期Tnnに含まれる各制御時刻において、操作θFFはこの調整係数Kp、Ki、Kdによって随時調整されて、ドライブロボット4が制御される。これにより、推論周期Tnnと制御周期Tdrのサンプリング差が補完され、一定の時間の間、操作θFFが新たに推論されなくとも、その間に、操作θFFを調整しつつ使用することができる。したがって、指令車速への追従性が向上する。
また、推論周期Tnnに含まれる、ドライブロボット4の複数の制御時刻において、同一の操作θFFが調整されつつ使用されるので、操作推論学習モデル50は、一度の推論において、複数の操作θFFを推論する必要がない。これにより、操作推論学習モデル50の構造を簡潔にすることができ、かつ操作推論学習モデル50を容易に機械学習させることができる。
The control device 11 of the drive robot 4 of the present embodiment controls the drive robot (automatic control robot) 4 mounted on the vehicle 2 to drive the vehicle 2 so that the vehicle 2 travels according to a specified command vehicle speed vref. The operation θ of the drive robot 4 that causes the vehicle 2 to travel according to the command vehicle speed v ref based on the traveling state of the vehicle 2 including the vehicle speed v date and the command vehicle speed v ref. The operation content inference unit 41 that infers the operation θ FF in the inference cycle (first cycle) Tnn by the operation inference learning model 50 generated by strengthening the machine learning device so as to infer the FF, and the running state. Based on the above, the operation θ FF inferred by the operation content inference unit 41 is adjusted during the inference period Tnn. Adjustment coefficient inference The operation θ FF is adjusted by the adjustment coefficients Kp, Ki, and Kd between the adjustment coefficient inference unit 45 that infers the adjustment coefficients Kp, Ki, and Kd by the adjustment coefficient inference learning model 70 and the inference cycle Tnn, and the operation after adjustment. It includes a vehicle operation control unit 22 that generates θ ref and controls the drive robot 4 based on the adjusted operation θ ref.
Further, the control method of the drive robot 4 of the present embodiment is such that the drive robot (automatic control robot) 4 mounted on the vehicle 2 and traveling the vehicle 2 travels according to the command vehicle speed vref specified by the vehicle 2. A control method for the drive robot 4 to be controlled, which is an operation θ of the vehicle 2 such that the vehicle 2 is driven according to the command vehicle speed v ref based on the traveling state of the vehicle 2 including the vehicle speed v det and the command vehicle speed v ref. The operation θ FF is inferred by the inference cycle (first cycle) Tnn by the operation inference learning model 50 generated by strengthening the machine learning device so as to infer the FF, and is inferred based on the running state. The adjustment coefficient Kp, is adjusted by the adjustment coefficient inference learning model 70 generated by strengthening the machine learning device so as to infer the adjustment coefficients Kp, Ki, and Kd that adjust the operation θ FF during the inference period Tnn. ki, infer Kd, between inference cycles Tnn, the adjustment factor Kp, Ki, and adjust the operation theta FF by Kd to generate adjusted operation theta ref, drive the robot 4 based after the adjustment operation theta ref Control.
According to the above configuration, the operation reasoning learning model 50 is a vehicle 2 that causes the vehicle 2 to travel according to the command vehicle speed v ref based on the traveling state of the vehicle 2 including the vehicle speed v date and the command vehicle speed v ref. Reinforcement learning is done to infer the operation θ FF of. Therefore, at least operations inference learning model 50 to infer period Tnn every a cycle of inference operations theta FF of the vehicle 2, the vehicle 2 the command vehicle speed v ref in accurately operation theta FF vehicle 2, such as to follow the output Will be done.
Here, the operation inference learning model 50 as described above tends to have a large amount of calculation. Therefore, the inference cycle Tnn is longer than the control cycle Tdr of the drive robot 4, and a plurality of control times are included in one inference cycle Tnn. Therefore, the operation θ FF of the vehicle 2 is not output so as to correspond to each of the control times individually. In such a case, if the same operation θ FF of the vehicle 2 is applied to each of the plurality of control times, precise control cannot be performed and the followability to the command vehicle speed cannot be improved.
On the other hand, in the present embodiment, the adjustments that are strengthened and learned to infer the adjustment coefficients Kp, Ki, and Kd that adjust the inferred operation θ FF during the inference cycle Tnn based on the running state. The coefficient inference learning model 70 infers the adjustment coefficients Kp, Ki, and Kd. That is, at each control time included in the inference cycle Tnn, the operation θ FF is adjusted at any time by the adjustment coefficients Kp, Ki, and Kd, and the drive robot 4 is controlled. Accordingly, supplemented sampled difference inference cycle Tnn the control period Tdr is, during a certain time, even operating theta FF is not newly inferred, during which can be used while adjusting the operation theta FF. Therefore, the ability to follow the command vehicle speed is improved.
Further, since the same operation θ FF is adjusted and used at a plurality of control times of the drive robot 4 included in the inference cycle Tnn, the operation inference learning model 50 uses a plurality of operations θ FF in one inference. There is no need to infer. As a result, the structure of the operation inference learning model 50 can be simplified, and the operation inference learning model 50 can be easily machine-learned.

また、推論周期Tnnは、ドライブロボット4を制御する制御周期(第2の周期)Tdrよりも長く設定され、調整係数推論学習モデル70も推論周期Tnnごとに調整係数Kp、Ki、Kdを推論し、操作推論学習モデル50と調整係数推論学習モデル70の各々は、一度の推論で、次の推論周期Tnnの間に使用される車両2の操作θFFと調整係数Kp、Ki、Kdのみを推論し、車両操作制御部22は、最新の車両2の操作θFFと調整係数Kp、Ki、Kdを使用して、次の推論が行われるまでの間に、調整後操作θrefを生成する。
また、調整係数Kp、Ki、Kdは、比例ゲインKp、積分ゲインKi、及び微分ゲインKdを含み、車両操作制御部22は、調整係数Kp、Ki、Kdを基に、フィードバック制御により、操作θFFの調整量θFBを計算し、当該調整量θFBを基に操作θFFを調整して調整後操作θrefを生成する。
更に、操作θFFの対象は、アクセルペダル2cを含む。
上記のような構成によれば、ドライブロボット4の制御装置11を適切に実現可能である。
Further, the inference cycle Tnn is set longer than the control cycle (second cycle) Tdr that controls the drive robot 4, and the adjustment coefficient inference learning model 70 also infers the adjustment coefficients Kp, Ki, and Kd for each inference cycle Tnn. , Each of the operation inference learning model 50 and the adjustment coefficient inference learning model 70 infers only the operation θ FF and the adjustment coefficients Kp, Ki, and Kd of the vehicle 2 used during the next inference cycle Tnn in one inference. Then, the vehicle operation control unit 22 uses the latest operation θ FF of the vehicle 2 and the adjustment coefficients Kp, Ki, and Kd to generate the adjusted operation θ ref until the next inference is made.
Further, the adjustment coefficients Kp, Ki, and Kd include the proportional gain Kp, the integral gain Ki, and the differential gain Kd, and the vehicle operation control unit 22 operates θ by feedback control based on the adjustment coefficients Kp, Ki, and Kd. The adjustment amount θ FB of FF is calculated, and the operation θ FF is adjusted based on the adjustment amount θ FB to generate the adjusted operation θ ref.
Further, the target of the operation θ FF includes the accelerator pedal 2c.
According to the above configuration, the control device 11 of the drive robot 4 can be appropriately realized.

[実施形態の第1変形例]
次に、図6を用いて、上記実施形態として示したドライブロボット4の制御装置11及び制御方法の変形例を説明する。図6は、本変形例におけるドライブロボットの制御装置のデータの流れを示す処理ブロック図である。
本変形例におけるドライブロボット4の制御装置は、上記実施形態のドライブロボット4の制御装置11とは、車両操作制御部のフィードバック操作量演算部26Aが、PID制御の積分項により蓄積される積分バッファi_buffを計算して調整係数推論部45Aへ送信する点が異なっている。
これに伴い、調整係数推論部45A内に設けられた調整係数推論学習モデルは、入力層に、走行状態に対応する入力ノードに加えて、積分バッファi_buffに対応する入力ノードを備えた構成となっている。これにより、調整係数推論学習モデルは、走行状態と、積分バッファi_buffを基に、調整係数を推論する。
[First Modified Example of Embodiment]
Next, a modified example of the control device 11 and the control method of the drive robot 4 shown as the above embodiment will be described with reference to FIG. FIG. 6 is a processing block diagram showing a data flow of the control device of the drive robot in this modified example.
The control device of the drive robot 4 in this modification is the integration buffer in which the feedback operation amount calculation unit 26A of the vehicle operation control unit is accumulated by the integration term of PID control with the control device 11 of the drive robot 4 of the above embodiment. The difference is that i_buff is calculated and transmitted to the adjustment coefficient inference unit 45A.
Along with this, the adjustment coefficient inference learning model provided in the adjustment coefficient inference unit 45A has a configuration in which the input layer includes an input node corresponding to the integration buffer i_buff in addition to the input node corresponding to the running state. ing. As a result, the adjustment coefficient inference learning model infers the adjustment coefficient based on the running state and the integration buffer i_buff.

本第1変形例が、既に説明した実施形態と同様な効果を奏することは言うまでもない。
本変形例の構成においては、調整係数推論学習モデルの推論結果である調整係数が使用される、調整係数推論学習モデルの後段に位置するフィードバック操作量演算部26Aにおいて使用される積分バッファi_buffが、調整係数推論学習モデルの入力となっている。したがって、上記実施形態よりも、調整係数の精度が向上する。
Needless to say, this first modification has the same effect as that of the embodiment described above.
In the configuration of this modification, the integration buffer i_buff used in the feedback manipulation amount calculation unit 26A located at the subsequent stage of the adjustment coefficient inference learning model, in which the adjustment coefficient which is the inference result of the adjustment coefficient inference learning model is used, is It is the input of the adjustment coefficient inference learning model. Therefore, the accuracy of the adjustment coefficient is improved as compared with the above embodiment.

[実施形態の第2変形例]
次に、図7を用いて、上記第1変形例として示したドライブロボット4の制御装置及び制御方法の、更なる変形例を説明する。図7は、本変形例におけるドライブロボットの制御装置のデータの流れを示す処理ブロック図である。
本変形例におけるドライブロボット4の制御装置は、上記第1変形例のドライブロボット4の制御装置とは、操作内容推論部41B内の操作推論学習モデルに、調整係数推論学習モデルが統合され、操作推論学習モデルと、調整係数推論学習モデルが、一つの学習モデルとして実現されている点が異なっている。
[Second variant of the embodiment]
Next, a further modification of the control device and control method of the drive robot 4 shown as the first modification will be described with reference to FIG. 7. FIG. 7 is a processing block diagram showing a data flow of the control device of the drive robot in this modified example.
The control device of the drive robot 4 in this modification is different from the control device of the drive robot 4 in the first modification, in which the adjustment coefficient inference learning model is integrated with the operation inference learning model in the operation content inference unit 41B and operated. The difference is that the inference learning model and the adjustment coefficient inference learning model are realized as one learning model.

すなわち、本変形例における、操作内容推論部41Bに設けられた学習モデルは、走行状態及び積分バッファi_buffの各々に対応する入力ノードを備えた入力層と、複数の中間層、及び車両2の操作θFFと調整係数Kp、Ki、Kdの各々に対応する出力ノードを備えた、ニューラルネットワークである。
これに伴い、この学習モデルを強化学習する際に用いられる行動価値推論学習モデルは、走行状態と、これに対する車両2の操作θFF、及び調整係数Kp、Ki、Kdを入力として、報酬が大きいほど高い行動価値出力するように設計された、関数近似器としての学習モデルとなっている。
That is, the learning model provided in the operation content inference unit 41B in this modification is an operation of an input layer having input nodes corresponding to each of the traveling state and the integration buffer i_buff, a plurality of intermediate layers, and the vehicle 2. It is a neural network provided with output nodes corresponding to each of θ FF and adjustment coefficients Kp, Ki, and Kd.
Along with this, the behavioral value inference learning model used for reinforcement learning of this learning model has a large reward by inputting the running state, the operation θ FF of the vehicle 2 with respect to this, and the adjustment coefficients Kp, Ki, and Kd. It is a learning model as a function approximator designed to output a moderately high behavioral value.

このような構成においては、操作内容推論部41Bが調整係数Kp、Ki、Kdを出力するようになり、これがフィードバック操作量演算部26Aへと送信される。
また、フィードバック操作量演算部26Aが出力した積分バッファi_buffは、操作内容推論部41Bへと送信されて、学習モデルに入力される。
In such a configuration, the operation content inference unit 41B outputs the adjustment coefficients Kp, Ki, and Kd, which are transmitted to the feedback operation amount calculation unit 26A.
Further, the integration buffer i_buff output by the feedback manipulated variable calculation unit 26A is transmitted to the operation content inference unit 41B and input to the learning model.

本第2変形例が、既に説明した実施形態と同様な効果を奏することは言うまでもない。
本変形例の構成においては、学習モデルの数が低減されるため、より少ないリソース環境下においても実装が可能となる。
Needless to say, this second modification has the same effect as that of the embodiment described above.
In the configuration of this modification, the number of learning models is reduced, so that it can be implemented even in a smaller resource environment.

なお、本発明のドライブロボットの制御装置及び制御方法は、図面を参照して説明した上述の実施形態及び各変形例に限定されるものではなく、その技術的範囲において他の様々な変形例が考えられる。
例えば、上記実施形態においては、車両の操作としてアクセルペダルの操作量を出力したが、これに加え、ブレーキペダル等の、他の操作を出力しても構わない。
また、上記実施形態においては、操作推論学習モデル50と調整係数推論学習モデル70の学習と、第1行動価値推論学習モデル60と第2行動価値推論学習モデル80の学習が繰り返されるように説明した。しかし、十分な精度で学習されるのであれば、これら学習モデル50、60、70、80を学習する順序は、これに限られない。例えば、操作推論学習モデル50と第1行動価値推論学習モデル60の学習を繰り返してこれらの学習を完了させた後、調整係数推論学習モデル70と第2行動価値推論学習モデル80の学習を繰り返し、これらの学習を完了させるようにしてもよい。
これ以外にも、本発明の主旨を逸脱しない限り、上記実施形態及び各変形例で挙げた構成を取捨選択したり、他の構成に適宜変更したりすることが可能である。
The control device and control method for the drive robot of the present invention are not limited to the above-described embodiment and each modification described with reference to the drawings, and various other modifications are included in the technical scope thereof. Conceivable.
For example, in the above embodiment, the operation amount of the accelerator pedal is output as the operation of the vehicle, but in addition to this, other operations such as the brake pedal may be output.
Further, in the above embodiment, the learning of the operation inference learning model 50 and the adjustment coefficient inference learning model 70 and the learning of the first action value inference learning model 60 and the second action value inference learning model 80 are repeated. .. However, the order in which these learning models 50, 60, 70, and 80 are trained is not limited to this as long as they are trained with sufficient accuracy. For example, after repeating the learning of the operation inference learning model 50 and the first action value inference learning model 60 to complete these learnings, the learning of the adjustment coefficient inference learning model 70 and the second action value inference learning model 80 is repeated. These learnings may be completed.
In addition to this, as long as the gist of the present invention is not deviated, the configurations given in the above-described embodiment and each modification can be selected or changed to other configurations as appropriate.

1 試験装置
2 車両
2c アクセルペダル
3 シャシーダイナモメータ
4 ドライブロボット(自動操縦ロボット)
11 制御装置
20 ドライブロボット制御部
22 車両操作制御部
23 駆動状態取得部
24 操作補完部
25 走行抵抗演算部
26、26A フィードバック操作量演算部
27 車両駆動力演算部
30 学習部
31 指令車速生成部
35 学習データ記憶部
40 強化学習部
41、41B 操作内容推論部
42 第1行動価値推論部
43 報酬計算部
45、45A 調整係数推論部
46 第2行動価値推論部
50 操作推論学習モデル
60 第1行動価値推論学習モデル
70 調整係数推論学習モデル
80 第2行動価値推論学習モデル
θFF フィードフォワード変更量(操作)
θFB フィードバック変更量(調整量)
θref 調整後操作
Kp 比例ゲイン(調整係数)
Ki 積分ゲイン(調整係数)
Kd 微分ゲイン(調整係数)
i_buff 積分バッファ
det 検出車速(車速)
ref 指令車速
1 Test equipment 2 Vehicle 2c Accelerator pedal 3 Chassis dynamometer 4 Drive robot (autopilot robot)
11 Control device 20 Drive robot control unit 22 Vehicle operation control unit 23 Drive state acquisition unit 24 Operation complement unit 25 Travel resistance calculation unit 26, 26A Feedback operation amount calculation unit 27 Vehicle drive force calculation unit 30 Learning unit 31 Command vehicle speed generation unit 35 Learning data storage unit 40 Enhanced learning unit 41, 41B Operation content reasoning unit 42 First action value inference unit 43 Reward calculation unit 45, 45A Adjustment coefficient inference unit 46 Second action value inference unit 50 Operation inference learning model 60 First action value Inference learning model 70 Adjustment coefficient Inference learning model 80 Second action value Inference learning model θ FF Feed forward Change amount (operation)
θ FB feedback change amount (adjustment amount)
Operation after θ ref adjustment Kp proportional gain (adjustment coefficient)
Ki integrated gain (adjustment coefficient)
Kd derivative gain (adjustment coefficient)
i_buff Integral buffer v det detection Vehicle speed (vehicle speed)
v ref command vehicle speed

Claims (7)

車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御装置であって、
車速と前記指令車速を含む、前記車両の走行状態を基に、前記車両を前記指令車速に従って走行させるような前記車両の操作を推論するように、機械学習器を強化学習して生成された操作推論学習モデルにより、前記操作を第1の周期で推論する操作内容推論部と、
前記走行状態を基に、前記操作内容推論部により推論された前記操作を前記第1の周期の間に調整する、調整係数を推論するように、機械学習器を強化学習して生成された調整係数推論学習モデルにより、前記調整係数を推論する調整係数推論部と、
前記第1の周期の間に、前記調整係数により前記操作を調整して調整後操作を生成し、当該調整後操作に基づき前記自動操縦ロボットを制御する車両操作制御部と、
を備えている、自動操縦ロボットの制御装置。
An autopilot robot control device that controls an autopilot robot mounted on a vehicle to drive the vehicle so that the vehicle travels according to a specified command vehicle speed.
An operation generated by reinforcement learning of a machine learning device so as to infer an operation of the vehicle such that the vehicle travels according to the commanded vehicle speed based on the traveling state of the vehicle including the vehicle speed and the commanded vehicle speed. An operation content inference unit that infers the operation in the first cycle using an inference learning model, and an operation content inference unit.
Adjustment generated by strengthening learning of a machine learning device so as to infer an adjustment coefficient that adjusts the operation inferred by the operation content inference unit during the first period based on the running state. An adjustment coefficient inference unit that infers the adjustment coefficient using a coefficient inference learning model, and an adjustment coefficient inference unit.
During the first cycle, the vehicle operation control unit adjusts the operation according to the adjustment coefficient to generate the adjusted operation, and controls the autopilot robot based on the adjusted operation.
The control device of the autopilot robot.
前記第1の周期は、前記自動操縦ロボットを制御する第2の周期よりも長く設定され、
前記調整係数推論学習モデルも前記第1の周期ごとに前記調整係数を推論し、
前記操作推論学習モデルと前記調整係数推論学習モデルの各々は、一度の推論で、次の前記第1の周期の間に使用される前記車両の操作と前記調整係数のみを推論し、
前記車両操作制御部は、最新の前記車両の操作と前記調整係数を使用して、次の推論が行われるまでの間で、前記調整後操作を生成する、請求項1に記載の自動操縦ロボットの制御装置。
The first cycle is set longer than the second cycle for controlling the autopilot robot.
The adjustment coefficient inference learning model also infers the adjustment coefficient for each first cycle.
Each of the operation inference learning model and the adjustment coefficient inference learning model infers only the operation of the vehicle and the adjustment coefficient used during the next first period in one inference.
The autopilot robot according to claim 1, wherein the vehicle operation control unit uses the latest operation of the vehicle and the adjustment coefficient to generate the adjusted operation until the next inference is made. Control device.
前記調整係数は、比例ゲイン、積分ゲイン、及び微分ゲインを含み、
前記車両操作制御部は、前記調整係数を基に、フィードバック制御により、前記操作の調整量を計算し、当該調整量を基に前記操作を調整して前記調整後操作を生成する、請求項1または2に記載の自動操縦ロボットの制御装置。
The adjustment coefficients include proportional gain, integral gain, and derivative gain.
The vehicle operation control unit calculates the adjustment amount of the operation by feedback control based on the adjustment coefficient, adjusts the operation based on the adjustment amount, and generates the adjusted operation. Alternatively, the control device for the autopilot robot according to 2.
前記車両操作制御部は積分バッファを計算し、
前記調整係数推論学習モデルは、前記走行状態と、前記積分バッファを基に、前記調整係数を推論する、請求項3に記載の自動操縦ロボットの制御装置。
The vehicle operation control unit calculates the integration buffer and
The control device for an autopilot robot according to claim 3, wherein the adjustment coefficient inference learning model infers the adjustment coefficient based on the traveling state and the integration buffer.
前記操作推論学習モデルと、前記調整係数推論学習モデルは、一つの学習モデルとして実現されている、請求項1から4のいずれか一項に記載の自動操縦ロボットの制御装置。 The control device for an autopilot robot according to any one of claims 1 to 4, wherein the operation inference learning model and the adjustment coefficient inference learning model are realized as one learning model. 前記操作の対象は、アクセルペダルを含む、請求項1から5のいずれか一項に記載の自動操縦ロボットの制御装置。 The control device for an autopilot robot according to any one of claims 1 to 5, wherein the operation target includes an accelerator pedal. 車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御方法であって、
車速と前記指令車速を含む、前記車両の走行状態を基に、前記車両を前記指令車速に従って走行させるような前記車両の操作を推論するように、機械学習器を強化学習して生成された操作推論学習モデルにより、前記操作を第1の周期で推論し、
前記走行状態を基に、推論された前記操作を前記第1の周期の間に調整する、調整係数を推論するように、機械学習器を強化学習して生成された調整係数推論学習モデルにより、前記調整係数を推論し、
前記第1の周期の間に、前記調整係数により前記操作を調整して調整後操作を生成し、当該調整後操作に基づき前記自動操縦ロボットを制御する、自動操縦ロボットの制御方法。
A control method for an autopilot robot that controls an autopilot robot mounted on a vehicle to drive the vehicle so that the vehicle travels according to a specified command vehicle speed.
An operation generated by reinforcement learning of a machine learning device so as to infer an operation of the vehicle that causes the vehicle to travel according to the commanded vehicle speed based on the traveling state of the vehicle including the vehicle speed and the commanded vehicle speed. The operation is inferred in the first cycle by the inference learning model, and the operation is inferred in the first cycle.
An adjustment coefficient inference learning model generated by reinforcement learning of a machine learning device so as to infer an adjustment coefficient that adjusts the inferred operation during the first period based on the running state. Infer the adjustment coefficient and
A control method for an autopilot robot, which adjusts the operation according to the adjustment coefficient to generate an adjusted operation during the first cycle, and controls the autopilot robot based on the adjusted operation.
JP2020018391A 2020-02-06 2020-02-06 Control device and control method for autopilot robot Active JP6908144B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020018391A JP6908144B1 (en) 2020-02-06 2020-02-06 Control device and control method for autopilot robot
PCT/JP2020/046988 WO2021157212A1 (en) 2020-02-06 2020-12-16 Control device and control method for automatic driving robot

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020018391A JP6908144B1 (en) 2020-02-06 2020-02-06 Control device and control method for autopilot robot

Publications (2)

Publication Number Publication Date
JP6908144B1 JP6908144B1 (en) 2021-07-21
JP2021124403A true JP2021124403A (en) 2021-08-30

Family

ID=76919745

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020018391A Active JP6908144B1 (en) 2020-02-06 2020-02-06 Control device and control method for autopilot robot

Country Status (2)

Country Link
JP (1) JP6908144B1 (en)
WO (1) WO2021157212A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210114596A1 (en) * 2019-10-18 2021-04-22 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
WO2023228795A1 (en) * 2022-05-24 2023-11-30 株式会社堀場製作所 Machine learning device, vehicle testing system, machine learning method, and vehicle testing method

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112021007838T5 (en) * 2021-08-23 2024-04-18 Mitsubishi Electric Corporation NEURAL NETWORK CONTROL AND LEARNING METHODS FOR NEURAL NETWORK CONTROL
FR3135942A1 (en) * 2022-05-30 2023-12-01 Psa Automobiles Sa Method for learning the brake pedal of a vehicle by a driving robot

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006013922A1 (en) * 2004-08-06 2006-02-09 Honda Motor Co., Ltd. Control device for vehicle
JP2008190385A (en) * 2007-02-02 2008-08-21 Mitsubishi Electric Corp Control device of internal combustion engine
JP2014115168A (en) * 2012-12-07 2014-06-26 Aisin Aw Co Ltd Vehicular travel simulation device, driver model construction method and driver model construction program
CN104411561A (en) * 2012-06-27 2015-03-11 斯堪尼亚商用车有限公司 Vehicle speed and coasting control method and system
WO2019051009A1 (en) * 2017-09-07 2019-03-14 iMFLUX Inc. Systems and methods for autotuning pid control of injection molding machines
JP2019138273A (en) * 2018-02-15 2019-08-22 株式会社明電舎 Vehicle speed control device and vehicle speed control method
JP2019164812A (en) * 2019-04-26 2019-09-26 本田技研工業株式会社 Vehicle control system and method, and travel support server
US20190367025A1 (en) * 2018-05-31 2019-12-05 Visteon Global Technologies, Inc. Adaptive longitudinal control using reinforcement learning

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006013922A1 (en) * 2004-08-06 2006-02-09 Honda Motor Co., Ltd. Control device for vehicle
JP2008190385A (en) * 2007-02-02 2008-08-21 Mitsubishi Electric Corp Control device of internal combustion engine
CN104411561A (en) * 2012-06-27 2015-03-11 斯堪尼亚商用车有限公司 Vehicle speed and coasting control method and system
JP2014115168A (en) * 2012-12-07 2014-06-26 Aisin Aw Co Ltd Vehicular travel simulation device, driver model construction method and driver model construction program
WO2019051009A1 (en) * 2017-09-07 2019-03-14 iMFLUX Inc. Systems and methods for autotuning pid control of injection molding machines
JP2019138273A (en) * 2018-02-15 2019-08-22 株式会社明電舎 Vehicle speed control device and vehicle speed control method
US20190367025A1 (en) * 2018-05-31 2019-12-05 Visteon Global Technologies, Inc. Adaptive longitudinal control using reinforcement learning
JP2019164812A (en) * 2019-04-26 2019-09-26 本田技研工業株式会社 Vehicle control system and method, and travel support server

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210114596A1 (en) * 2019-10-18 2021-04-22 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
US11654915B2 (en) * 2019-10-18 2023-05-23 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
WO2023228795A1 (en) * 2022-05-24 2023-11-30 株式会社堀場製作所 Machine learning device, vehicle testing system, machine learning method, and vehicle testing method

Also Published As

Publication number Publication date
JP6908144B1 (en) 2021-07-21
WO2021157212A1 (en) 2021-08-12

Similar Documents

Publication Publication Date Title
JP6908144B1 (en) Control device and control method for autopilot robot
WO2020183864A1 (en) Learning system and learning method for operation inference learning model for controlling automatic driving robot
US6411944B1 (en) Self-organizing control system
CN112668235A (en) Robot control method of DDPG algorithm based on offline model pre-training learning
US5285377A (en) Control apparatus structuring system
KR102313002B1 (en) Vehicle speed control device and vehicle speed control method
CN109376493A (en) A kind of radial base neural net car speed tracking of particle group optimizing
JP5738329B2 (en) Simulation device
CN109189075B (en) Model-free adaptive course control method for ship by using fuzzy forgetting factor
Ali et al. Combined ANFIS method with FA, PSO, and ICA as Steering control optimization on electric car
CN115446867B (en) Industrial mechanical arm control method and system based on digital twin technology
US20190317472A1 (en) Controller and control method
CN113977583A (en) Robot rapid assembly method and system based on near-end strategy optimization algorithm
CN110588654B (en) Method for automatically setting corresponding PID control parameter of vehicle speed
Shelton et al. Controlling a truck with an adaptive critic CMAC design
Pinte et al. Learning strategies for wet clutch control
JP6866940B1 (en) Control device and control method for autopilot robot
WO2022059484A1 (en) Learning system and learning method for operation inference learning model for controlling automated driving robot
JP2021143882A (en) Learning system and learning method for operation inference learning model that controls automatically manipulated robot
JP7110891B2 (en) Autopilot robot control device and control method
CN115741692A (en) High-precision control method and system for hydraulic mechanical arm based on data driving
CN118259660A (en) Path planning method and system based on PPO improved algorithm
US20020198853A1 (en) Controlling the self learning behavior of an autonomous agent
JP2021128510A (en) Learning system and learning method for operation deduction learning model for controlling automatic operation robot
JP2024001584A (en) Control unit and control method for automatic steering robot

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210107

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210118

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210601

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210614

R150 Certificate of patent or registration of utility model

Ref document number: 6908144

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150