JP2021124403A - Control device and control method for automatically manipulating robot - Google Patents
Control device and control method for automatically manipulating robot Download PDFInfo
- Publication number
- JP2021124403A JP2021124403A JP2020018391A JP2020018391A JP2021124403A JP 2021124403 A JP2021124403 A JP 2021124403A JP 2020018391 A JP2020018391 A JP 2020018391A JP 2020018391 A JP2020018391 A JP 2020018391A JP 2021124403 A JP2021124403 A JP 2021124403A
- Authority
- JP
- Japan
- Prior art keywords
- inference
- vehicle
- adjustment coefficient
- unit
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01M—TESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
- G01M17/00—Testing of vehicles
- G01M17/007—Wheeled or endless-tracked vehicles
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B23/00—Testing or monitoring of control systems or parts thereof
- G05B23/02—Electric testing or monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Feedback Control In General (AREA)
Abstract
Description
本発明は、自動操縦ロボットの制御装置及び制御方法に関する。 The present invention relates to a control device and a control method for an autopilot robot.
一般に、普通自動車などの車両を製造、販売する際には、国や地域により規定された、特定の走行パターン(モード)により車両を走行させた際の燃費や排出ガスを測定し、これを表示する必要がある。
モードは、例えば、走行開始から経過した時間と、その時に到達すべき車速との関係として、グラフにより表わすことが可能である。この到達すべき車速は、車両へ与えられる達成すべき速度に関する指令という観点で、指令車速と呼ばれることがある。
上記のような、燃費や排出ガスに関する試験は、シャシーダイナモメータ上に車両を載置し、車両に搭載された自動操縦ロボット、所謂ドライブロボット(登録商標)により、モードに従って車両を運転させることにより行われる。
Generally, when manufacturing and selling vehicles such as ordinary automobiles, the fuel consumption and exhaust gas when the vehicle is driven according to a specific driving pattern (mode) specified by the country or region are measured and displayed. There is a need to.
The mode can be represented by a graph as, for example, the relationship between the time elapsed from the start of traveling and the vehicle speed to be reached at that time. This vehicle speed to be reached is sometimes referred to as a command vehicle speed in terms of a command regarding the speed to be achieved given to the vehicle.
The above tests on fuel consumption and exhaust gas are carried out by placing the vehicle on the chassis dynamometer and driving the vehicle according to the mode by the autopilot robot, so-called drive robot (registered trademark) mounted on the vehicle. Will be done.
指令車速には、許容誤差範囲が規定されている。車速が許容誤差範囲を逸脱すると、その試験は無効となるため、自動操縦ロボットの制御には、指令車速への高い追従性が求められる。このため、自動操縦ロボットの制御に、例えば強化学習の技術が適用されることがある。
例えば、特許文献1には、人間らしいペダル操作を行うドライバモデルを強化学習によって構築することが可能な車輌用走行シミュレーション装置、ドライバモデル構築方法及びドライバモデル構築プログラムが開示されている。
より詳細には、車輌用走行シミュレーション装置は、ドライバモデルのゲインの値を変更させながら、車輌モデルを複数回走行させ、この時に変更されたゲインの値を報酬値に基づいて評価することによって、ドライバモデルのゲインの設定を自動的に行う。
特許文献1の構成においては、実際に車輌を走行させるに際し、強化学習により予め決定されたゲインの値を用いて、ドライバモデルが車輌をPID制御する。
The margin of error is specified for the command vehicle speed. If the vehicle speed deviates from the margin of error, the test becomes invalid. Therefore, the control of the autopilot robot is required to have high followability to the commanded vehicle speed. Therefore, for example, reinforcement learning technology may be applied to the control of the autopilot robot.
For example, Patent Document 1 discloses a vehicle driving simulation device, a driver model construction method, and a driver model construction program capable of constructing a driver model that performs a human-like pedal operation by reinforcement learning.
More specifically, the vehicle driving simulation device travels the vehicle model multiple times while changing the gain value of the driver model, and evaluates the changed gain value based on the reward value. The gain of the driver model is set automatically.
In the configuration of Patent Document 1, the driver model PID controls the vehicle by using the gain value determined in advance by reinforcement learning when the vehicle is actually driven.
車両を走行させて特性を計測するための、例えばWLTC(Worldwide harmonized Light vehicles Test Cycle)モード等の走行モードには、多種多様なパターンの走行モードが含まれている。特許文献1のように、予め決定されたゲインの値により車両を制御する装置においては、このような多種多様なパターンの各々に柔軟に対応して、車両を高い精度で指令車速に追従させることは、容易ではない。 The driving mode for driving the vehicle and measuring the characteristics, for example, the WLTC (World Harmonized Light Vehicles Test Cycle) mode, includes a wide variety of patterns of driving modes. In a device that controls a vehicle by a predetermined gain value as in Patent Document 1, the vehicle can be made to follow a commanded vehicle speed with high accuracy by flexibly responding to each of such a wide variety of patterns. Is not easy.
これに対し、検出車速や指令車速等の車両の状態を入力させて当該状態に適した車両の操作を出力するように構築された、ニューラルネットワーク等の機械学習器を、強化学習により学習させて、操作を推論する学習モデルを生成することが考えられる。実際に車両を走行させる際には、車両の状態を操作推論学習モデルに入力し、これに対して操作推論学習モデルが推論した操作を車両に適用するように、ドライブロボットが制御される。
一般に、ニューラルネットワーク等の、機械学習器を学習させて生成される学習モデルによる推論は、演算量が多くなる傾向にある。したがって、実際にドライブロボットを制御する制御時刻の時間間隔である制御周期よりも、操作推論学習モデルによって操作を推論する推論時刻の時間間隔である推論周期の方が長くなり、一つの推論周期内に、複数の制御時刻が含まれることがある。
このような場合に、ある推論周期内に含まれる複数の制御時刻の全てにおいて、操作推論学習モデルによって最新に推論された操作と同じ操作を適用することも考えられるが、これは緻密な制御とはいえず、指令車速への高い追従性が望めない。
あるいは、次の推論周期に含まれる複数の制御時刻の全てにおける操作を、一度にまとめて推論することも考えられる。しかし、この場合においては、推論される操作の数が増えるために操作推論学習モデルの構造が複雑になる。また、操作推論学習モデルの学習も容易ではない。
On the other hand, a machine learning device such as a neural network, which is constructed to input the vehicle state such as the detected vehicle speed and the command vehicle speed and output the operation of the vehicle suitable for the state, is trained by reinforcement learning. , It is conceivable to generate a learning model that infers the operation. When the vehicle is actually driven, the drive robot is controlled so as to input the state of the vehicle into the operation inference learning model and apply the operation inferred by the operation inference learning model to the vehicle.
In general, inference by a learning model generated by learning a machine learning device such as a neural network tends to require a large amount of calculation. Therefore, the inference cycle, which is the time interval of the inference time for inferring the operation by the operation inference learning model, is longer than the control cycle, which is the time interval of the control time that actually controls the drive robot, and is within one inference cycle. May include multiple control times.
In such a case, it is conceivable to apply the same operation as the operation most recently inferred by the operation inference learning model at all of the plurality of control times included in a certain inference cycle, but this is a precise control. However, high followability to the command vehicle speed cannot be expected.
Alternatively, it is also conceivable to infer operations at all of a plurality of control times included in the next inference cycle at once. However, in this case, the structure of the operation inference learning model becomes complicated because the number of inferred operations increases. Also, learning an operation inference learning model is not easy.
本発明が解決しようとする課題は、車両の操作を推論する学習モデルの構造が簡潔で機械学習が容易であり、かつ指令車速に高い精度で追従させることができる、自動操縦ロボット(ドライブロボット)の制御装置及び制御方法を提供することである。 The problem to be solved by the present invention is an autopilot robot (drive robot) in which the structure of a learning model for inferring vehicle operation is simple, machine learning is easy, and the commanded vehicle speed can be followed with high accuracy. Is to provide a control device and a control method for the above.
本発明は、上記課題を解決するため、以下の手段を採用する。すなわち、本発明は、車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御装置であって、車速と前記指令車速を含む、前記車両の走行状態を基に、前記車両を前記指令車速に従って走行させるような前記車両の操作を推論するように、機械学習器を強化学習して生成された操作推論学習モデルにより、前記操作を第1の周期で推論する操作内容推論部と、前記走行状態を基に、前記操作内容推論部により推論された前記操作を前記第1の周期の間に調整する、調整係数を推論するように、機械学習器を強化学習して生成された調整係数推論学習モデルにより、前記調整係数を推論する調整係数推論部と、前記第1の周期の間に、前記調整係数により前記操作を調整して調整後操作を生成し、当該調整後操作に基づき前記自動操縦ロボットを制御する車両操作制御部と、を備えている、自動操縦ロボットの制御装置を提供する。 The present invention employs the following means in order to solve the above problems. That is, the present invention is a control device for an automatic control robot that controls an automatic control robot mounted on a vehicle to drive the vehicle so that the vehicle travels in accordance with a specified command vehicle speed. An operation inference learning model generated by strengthening learning of a machine learning device so as to infer the operation of the vehicle such that the vehicle travels according to the commanded vehicle speed based on the traveling state of the vehicle including the commanded vehicle speed. An adjustment coefficient that adjusts the operation inferred by the operation content inference unit during the first cycle based on the operation content inference unit that infers the operation in the first cycle and the running state. With the adjustment coefficient inference learning model generated by strengthening the machine learning device so as to infer Provided is a control device for an automatic control robot, comprising a vehicle operation control unit that adjusts the operation to generate an adjusted operation and controls the automatic control robot based on the adjusted operation.
また、本発明は、車両に搭載されて前記車両を走行させる自動操縦ロボットを、前記車両が規定された指令車速に従って走行するように制御する、自動操縦ロボットの制御方法であって、車速と前記指令車速を含む、前記車両の走行状態を基に、前記車両を前記指令車速に従って走行させるような前記車両の操作を推論するように、機械学習器を強化学習して生成された操作推論学習モデルにより、前記操作を第1の周期で推論し、前記走行状態を基に、推論された前記操作を前記第1の周期の間に調整する、調整係数を推論するように、機械学習器を強化学習して生成された調整係数推論学習モデルにより、前記調整係数を推論し、前記第1の周期の間に、前記調整係数により前記操作を調整して調整後操作を生成し、当該調整後操作に基づき前記自動操縦ロボットを制御する、自動操縦ロボットの制御方法を提供する。 Further, the present invention is a control method for an automatic control robot, which controls an automatic control robot mounted on a vehicle to drive the vehicle so that the vehicle travels in accordance with a specified command vehicle speed. An operation inference learning model generated by reinforcement learning of a machine learning device so as to infer the operation of the vehicle such that the vehicle travels according to the commanded vehicle speed based on the traveling state of the vehicle including the commanded vehicle speed. The machine learning device is strengthened so as to infer the adjustment coefficient, which infers the operation in the first cycle and adjusts the inferred operation during the first cycle based on the running state. The adjustment coefficient is inferred by the adjustment coefficient inference learning model generated by learning, and during the first cycle, the operation is adjusted by the adjustment coefficient to generate an adjusted operation, and the adjusted operation is generated. Provided is a control method of an automatic control robot that controls the automatic control robot based on the above.
本発明によれば、車両の操作を推論する学習モデルの構造が簡潔で機械学習が容易であり、かつ指令車速に高い精度で追従させることができる、自動操縦ロボット(ドライブロボット)の制御装置及び制御方法を提供することができる。 According to the present invention, a control device for an autopilot robot (drive robot), which has a simple structure of a learning model for inferring vehicle operation, easy machine learning, and can follow a commanded vehicle speed with high accuracy. A control method can be provided.
以下、本発明の実施形態について図面を参照して詳細に説明する。
本実施形態においては、自動操縦ロボットとしては、ドライブロボット(登録商標)を用いているため、以下、自動操縦ロボットをドライブロボットと記載する。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
In the present embodiment, since the drive robot (registered trademark) is used as the autopilot robot, the autopilot robot will be referred to as a drive robot below.
図1は、実施形態におけるドライブロボットを用いた試験環境の説明図である。試験装置1は、車両2、シャシーダイナモメータ3、及びドライブロボット4を備えている。
車両2は、床面上に設けられている。シャシーダイナモメータ3は、床面の下方に設けられている。車両2は、車両2の駆動輪2aがシャシーダイナモメータ3の上に載置されるように、位置づけられている。車両2が走行し駆動輪2aが回転する際には、シャシーダイナモメータ3が反対の方向に回転する。
ドライブロボット4は、車両2の運転席2bに搭載されて、車両2を走行させる。ドライブロボット4は、アクチュエータ4cを備えている。アクチュエータ4cは、車両2のアクセルペダル2cに当接するように設けられている。
FIG. 1 is an explanatory diagram of a test environment using a drive robot in the embodiment. The test device 1 includes a
The
The
ドライブロボット4は、後に詳説する制御装置11によって制御されている。制御装置11は、ドライブロボット4のアクチュエータ4cを制御することにより、車両2のアクセルペダル2cの開度を変更、調整する。
制御装置11は、ドライブロボット4を、車両2が規定された指令車速に従って走行するように制御する。すなわち、制御装置11は、車両2のアクセルペダル2cの開度を変更することで、規定された走行パターン(モード)に従うように、車両2を走行制御する。より詳細には、制御装置11は、走行開始から時間が経過するに従い、各時間に到達すべき車速である指令車速に従うように、車両2を走行制御する。
The
The
制御装置11は、ドライブロボット制御部20と学習部30を備えている。
ドライブロボット制御部20は、ドライブロボット4の制御を行うための制御信号を生成し、ドライブロボット4に送信することで、ドライブロボット4を制御する。学習部30は、後に説明するような機械学習を行い、操作推論学習モデル、第1行動価値推論学習モデル、調整係数推論学習モデル、及び第2行動価値推論学習モデルを生成する。上記のような、ドライブロボット4の制御を行うための制御信号は、操作推論学習モデルと調整係数推論学習モデルによる推論結果を基に生成される。
ドライブロボット制御部20は、例えば、ドライブロボット4の筐体外部に設けられた、コントローラ等の情報処理装置である。学習部30は、例えばパーソナルコンピュータ等の情報処理装置である。
The
The drive
The drive
図2は、試験装置1と制御装置11のブロック図である。図3は、試験装置1と制御装置11のデータの流れを示す処理ブロック図である。
試験装置1は、既に説明したような車両2、シャシーダイナモメータ3、及びドライブロボット4に加え、車両状態計測部5を備えている。車両状態計測部5は、車両2やシャシーダイナモメータ3の状態を計測する各種の計測装置である。車両状態計測部5は、本実施形態においては、車両2のエンジン回転数ndet、エンジン温度ddet、及び車速vdetを検出する。これらの検出された値の各々は、次に説明する制御装置11の、ドライブロボット制御部20に送信される。
FIG. 2 is a block diagram of the test device 1 and the
The test device 1 includes a vehicle condition measuring unit 5 in addition to the
ドライブロボット制御部20は、車両操作制御部22と駆動状態取得部23を備えている。車両操作制御部22は、操作補完部24を備えている。操作補完部24は、走行抵抗演算部25、フィードバック操作量演算部26、及び車両駆動力演算部27を備えている。学習部30は、指令車速生成部31、推論データ成形部32、学習データ成形部33、操作学習データ生成部34、学習データ記憶部35、調整係数学習データ生成部36、及び強化学習部40を備えている。強化学習部40は、操作内容推論部41、第1行動価値推論部42、報酬計算部43、調整係数推論部45、及び第2行動価値推論部46を備えている。報酬計算部43は、操作報酬計算部44と調整係数報酬計算部47を備えている。
制御装置11の、学習データ記憶部35以外の各構成要素は、例えば上記の各情報処理装置内のCPUにより実行されるソフトウェア、プログラムであってよい。また、学習データ記憶部35は、上記各情報処理装置内外に設けられた半導体メモリや磁気ディスクなどの記憶装置により実現されていてよい。
操作内容推論部41、第1行動価値推論部42、調整係数推論部45、及び第2行動価値推論部46の各々は、操作推論学習モデル50、第1行動価値推論学習モデル60、調整係数推論学習モデル70、及び第2行動価値推論学習モデル80を、それぞれ備えている。
The drive
Each component of the
Operation contents Each of the
後に説明するように、操作内容推論部41の操作推論学習モデル50が車両2の操作を推論し、調整係数推論部45の調整係数推論学習モデル70が車両2の調整係数を推論する。ドライブロボット制御部20は、これらの推論された操作と調整係数を基に、ドライブロボット4を制御する。
特に本実施形態においては、操作補完部24は、これを構成する走行抵抗演算部25、フィードバック操作量演算部26、及び車両駆動力演算部27により、推論された車両2の操作に対して、推論された調整係数に則ってフィードバック系の制御を行い、実際にドライブロボット4に適用する操作を演算して、ドライブロボット4を制御する。
ここではまず、ドライブロボット制御部20を詳細に説明する。以下、操作内容推論部41及び調整係数推論部45における、操作と調整係数を推論する推論時刻の時間間隔を、推論周期(第1の周期)Tnnと呼称する。また、実際にドライブロボット4を制御する制御時刻の時間間隔を、制御周期(第2の周期)Tdrと呼称する。本実施形態においては、推論周期Tnnは制御周期Tdrよりも長くなるように設定されている。すなわち、ある時刻における操作と調整係数の推論結果と同一の値が、次の推論周期Tnn後の時刻までの時間間隔内の、ドライブロボット4の全ての制御時刻において適用される。以下のドライブロボット制御部20の各動作は、制御周期Tdrにおいて実行される。
As will be described later, the operation
In particular, in the present embodiment, the
Here, first, the drive
駆動状態取得部23は、車両状態計測部5から、車両2の検出エンジン回転数ndetと検出エンジン温度ddet、及び検出車速vdetを受信する。これらの値は、車両操作制御部22内の各構成要素から参照可能に設けられている。
車両操作制御部22は、後に説明する学習部30の指令車速生成部31から、従うべき指令車速vrefを受信する。車両操作制御部22の車両駆動力演算部27は、この受信した指令車速vrefの微分値と、車両2の重量を基に所定の近似式により車両駆動力Fxを演算する。
走行抵抗演算部25は、検出車速vdetを基に、実路面上での実走行を模した走行抵抗FRLを演算する。走行抵抗演算部25は、走行抵抗FRLをシャシーダイナモメータ3へ送信し、走行中の車両2に対して走行抵抗力を発生させる。
The drive
The vehicle
Running
駆動状態取得部23は、車両駆動力Fxと走行抵抗FRLが加算された値である要求駆動力Frefと、検出エンジン回転数ndet、検出エンジン温度ddet、及び検出車速(車速)vdetを、後に説明する推論データ成形部32に送信する。
推論データ成形部32は、駆動状態取得部23から受信した値の各々と、別途指令車速生成部31から受信した指令車速vrefを併せて、車両2の走行状態として、操作内容推論部41に送信する。
操作内容推論部41は、これら走行状態を基に、車両2を指令車速vrefに従って走行させるような車両2の操作を推論するように強化学習されている。操作内容推論部41は、推論周期Tnnごとに、受信した走行状態を基に、車両2の操作を推論する。本実施形態においては、操作の対象はアクセルペダル2cを含んでいる。このため、操作内容推論部41は、本実施形態においてはアクセル開度の変更量を演算する。このアクセル開度の変更量は、厳密には、指令車速vrefから算出された要求駆動力Frefを基に、フィードフォワード系の推論を行うことで算出されるものである。すなわち、操作内容推論部41によって算出されるアクセル開度の変更量は、フィードフォワード変更量(以下、FF変更量と記載する)θFFである。
Driving
The inference
The operation
推論データ成形部32はまた、上記の車両2の走行状態を、調整係数推論部45に送信する。調整係数推論部45は、走行状態を基に、操作内容推論部41により推論されたFF変更量すなわち操作θFFを次の推論周期Tnnの間に調整するための、調整係数を推論するように強化学習されている。調整係数推論部45は、推論周期Tnnごとに、受信した走行状態を基に、車両2の調整係数を推論する。本実施形態においては、調整係数は比例ゲインKp、積分ゲインKi、及び微分ゲインKdを含んでいる。
The inference
フィードバック操作量演算部26は、指令車速vrefと検出車速vdetとの差分である車速誤差dvを受信する。フィードバック操作量演算部26はまた、推論周期Tnnごとに、調整係数推論部45から、推論された調整係数Kp、Ki、Kd、すなわち比例ゲインKp、積分ゲインKi、及び微分ゲインKdを受信する。
フィードバック操作量演算部26は、推論周期Tnnごとに受信する調整係数Kp、Ki、Kdの最新の推論結果を基に、フィードバック制御により、操作θFFの調整量θFB、すなわちアクセル開度のフィードバック変更量(以下、FB変更量と記載する)θFBを演算する。特に本実施形態においては、フィードバック制御は、PID(Proportional−Differential Controller)制御である。フィードバック操作量演算部26は、上記のように、推論周期Tnnよりも短い制御周期Tdrで、調整量θFBを演算する。
The feedback manipulated
The feedback manipulated
操作補完部24は、推論周期Tnnごとに、操作内容推論部41から、推論された操作θFFを受信する。
操作補完部24は、推論周期Tnnごとに受信する操作θFFの最新の推論結果に対し、フィードバック操作量演算部26により演算された調整量θFBを加算して、調整後操作θref、すなわち実際に使用される変更量θrefを計算する。操作補完部24は、上記のように、推論周期Tnnよりも短い制御周期Tdrで、調整後操作θrefを演算する。
操作補完部24は、この調整後操作θrefを、ドライブロボット4に送信する。ドライブロボット4は、調整後操作θrefを基にアクチュエータ4cを駆動させてアクセルペダル2cを操作することにより、アクセル開度を変更する。
The operation complement unit 24 receives the inferred operation θ FF from the operation
The operation complement unit 24 adds the adjustment amount θ FB calculated by the feedback operation
The
このように、車両操作制御部22は、調整係数Kp、Ki、Kdにより操作θFFを調整して調整後操作θrefを生成し、調整後操作θrefに基づきドライブロボット4を制御する。操作θFFと調整係数Kp、Ki、Kdは、制御周期Tdrよりも長い推論周期Tnnで推論されて更新される。
Thus, the vehicle
次に、学習部30について説明する。
上記のように、操作内容推論部41は、ある時刻における走行状態を基に、当該時刻よりも後の車両2の操作θFFを推論する。この、車両2の操作θFFの推論を効果的に行うために、特に操作内容推論部41は、後に説明するように機械学習器を備えており、推論した操作θFFに基づいたドライブロボット4の操作の後の時刻における走行状態に基づいて計算された報酬を基に機械学習器を強化学習して操作推論学習モデル50を生成する。操作内容推論部41は、性能測定のために実際に車両2を走行制御させる際には、この学習が完了した操作推論学習モデル50を使用して、車両2の操作θFFを推論する。
また、上記のように、調整係数推論部45は、ある時刻における走行状態を基に、当該時刻よりも後の車両2の調整係数Kp、Ki、Kdを推論する。この、車両2の調整係数Kp、Ki、Kdの推論を効果的に行うために、特に調整係数推論部45は、後に説明するように機械学習器を備えており、推論した調整係数Kp、Ki、Kdに基づいたドライブロボット4の操作の後の時刻における走行状態に基づいて計算された報酬を基に機械学習器を強化学習して調整係数推論学習モデル70を生成する。調整係数推論部45は、性能測定のために実際に車両2を走行制御させる際には、この学習が完了した調整係数推論学習モデル70を使用して、車両2の調整係数Kp、Ki、Kdを推論する。
すなわち、制御装置11は大別して、強化学習時における操作θFF及び調整係数Kp、Ki、Kdの学習と、性能測定のために車両2を走行制御させる際における操作θFF及び調整係数Kp、Ki、Kdの推論の、2通りの動作を行う。説明を簡単にするために、以下ではまず、操作θFF及び調整係Kp、Ki、Kd数の学習時における、制御装置11の各構成要素の説明をした後に、車両2の性能測定に際して操作θFF及び調整係数Kp、Ki、Kdを推論する場合での各構成要素の挙動について説明する。
図2においては、各学習モデル50、70の学習時における、各学習モデル50、70に関連したデータの送受信は破線で示されている。
Next, the
As described above, the operation content inference unit 41 infers the operation θ FF of the
Further, as described above, the adjustment
That is, the
In FIG. 2, the transmission / reception of data related to the
まず、操作θFF及び調整係数Kp、Ki、Kdの学習時における、学習部30の構成要素の挙動を説明する。
指令車速生成部31は、モードに関する情報に基づいて生成された、指令車速vrefを保持している。指令車速生成部31は指令車速vrefを、車両操作制御部22と推論データ成形部32に送信する。
既に説明したように、車両操作制御部22は、指令車速生成部31から受信した指令車速vrefを基にドライブロボット4を制御して車両2を走行させる。駆動状態取得部23は、要求駆動力Fref、検出エンジン回転数ndet、検出エンジン温度ddet、及び検出車速(車速)vdetを収集し、推論データ成形部32へ送信する。
推論データ成形部32は、駆動状態取得部23から要求駆動力Fref、検出エンジン回転数ndet、検出エンジン温度ddet、及び検出車速vdetを受信する。また、推論データ成形部32は、指令車速生成部31から指令車速vrefを受信する。推論データ成形部32は、これらを併せて走行状態とし、適切に成形した後に、強化学習部40の操作内容推論部41と調整係数推論部45に送信する。
First, the behavior of the components of the
The command vehicle
As described above, the vehicle
The inference
操作内容推論部41は、走行状態を受信すると、これを基に、学習中の操作推論学習モデル50により、車両2を指令車速vrefに従って走行させるための、車両2の操作θFFを推論する。この操作θFFは、操作内容推論部41が次の推論を実行している推論周期Tnnの間は更新されないため、次の推論周期Tnnの間のドライブロボット4の制御に継続して使用される。
本実施形態においては、操作推論学習モデル50は、走行状態の各々に対応する入力ノードを備えた入力層と、複数の中間層、及び車両2の操作θFFに対応する出力ノードを備えた、ニューラルネットワークである。
入力ノードの各々に、対応する走行状態の値が入力されると、重みを基にした演算がなされて、入力ノードの次の段として設けられた中間層の、中間ノードの各々に、演算結果が格納される。このような演算と、次の段の中間ノードへの演算結果の格納が、各中間層に対して順次実行される。最終的には、最終段の中間層内の中間ノードに格納された演算結果を基に、同様な演算がなされ、その結果が車両2の操作θFFとして出力ノードに格納される。
操作内容推論部41は、このようにして生成された車両2の操作θFFを、車両操作制御部22に送信する。
When the operation
In the present embodiment, the operation
When the corresponding running state value is input to each of the input nodes, the calculation based on the weight is performed, and the calculation result is performed for each of the intermediate nodes of the intermediate layer provided as the next stage of the input node. Is stored. Such an operation and storage of the operation result in the intermediate node of the next stage are sequentially executed for each intermediate layer. Finally, the same calculation is performed based on the calculation result stored in the intermediate node in the middle layer of the final stage, and the result is stored in the output node as the operation θ FF of the vehicle 2.
The operation content inference unit 41 transmits the operation θ FF of the
同様に、調整係数推論部45は、走行状態を受信すると、これを基に、学習中の調整係数推論学習モデル70により、車両2を指令車速vrefに従って走行させるための、操作内容推論部41により推論された車両2の操作θFFに適用される調整係数Kp、Ki、Kdを推論する。この調整係数Kp、Ki、Kdは、調整係数推論部45が次の推論を実行している推論周期Tnnの間は更新されないため、次の推論周期Tnnの間のドライブロボット4の制御に継続して使用される。
本実施形態においては、調整係数推論学習モデル70は、走行状態の各々に対応する入力ノードを備えた入力層と、複数の中間層、及び調整係数Kp、Ki、Kdの各々に対応する出力ノードを備えた、ニューラルネットワークである。
入力ノードの各々に、対応する走行状態の値が入力されると、重みを基にした演算がなされて、入力ノードの次の段として設けられた中間層の、中間ノードの各々に、演算結果が格納される。このような演算と、次の段の中間ノードへの演算結果の格納が、各中間層に対して順次実行される。最終的には、最終段の中間層内の中間ノードに格納された演算結果を基に、同様な演算がなされ、その結果が調整係数Kp、Ki、Kdとして出力ノードに格納される。
調整係数推論部45は、このようにして生成された調整係数Kp、Ki、Kdを、車両操作制御部22に送信する。
Similarly, when the adjustment
In the present embodiment, the adjustment coefficient
When the corresponding running state value is input to each of the input nodes, the calculation based on the weight is performed, and the calculation result is performed for each of the intermediate nodes of the intermediate layer provided as the next stage of the input node. Is stored. Such an operation and storage of the operation result in the intermediate node of the next stage are sequentially executed for each intermediate layer. Finally, the same operation is performed based on the operation result stored in the intermediate node in the intermediate layer of the final stage, and the result is stored in the output node as the adjustment coefficients Kp, Ki, and Kd.
The adjustment
上記のような、操作内容推論部41と調整係数推論部45における、車両2の操作θFFと調整係数Kp、Ki、Kdの推論は、推論周期Tnnごとに行われる。操作推論学習モデル50と調整係数推論学習モデル70の各々は、一度の推論で、次の推論周期Tnnの間に使用される車両2の操作θFFと調整係数Kp、Ki、Kdのみを推論し、より将来の推論は行わない。更に次の推論周期Tnnに使用される車両2の操作θFFと調整係数Kp、Ki、Kdは、次の推論において導出される。
車両操作制御部22は、これらの推論された車両2の操作θFFと調整係数Kp、Ki、Kdを、推論周期Tnnごとに受信して更新する。車両操作制御部22は、次の推論周期Tnn後の時刻までの間、更新された最新の車両2の操作θFFと調整係数Kp、Ki、Kdを基に、刻々と変化する走行状態を随時入力して調整後操作θrefを生成し、調整後操作θrefに基づきドライブロボット4を制御する。
操作推論学習モデル50と調整係数推論学習モデル70の学習、すなわち誤差逆伝搬法、確率的勾配降下法によるニューラルネットワークを構成する各パラメータの値の調整は、現段階においては行われず、操作推論学習モデル50と調整係数推論学習モデル70は車両2の操作θFFと調整係数Kp、Ki、Kdを推論するのみである。操作推論学習モデル50と調整係数推論学習モデル70の学習は、後に、第1及び第2行動価値推論学習モデル60、80の学習に伴って行われる。
The inference of the operation θ FF of the
The vehicle
Operational
操作推論学習モデル50と調整係数推論学習モデル70の推論結果を基にドライブロボット4が制御された結果、車両2の走行状態が変更される。駆動状態取得部23は、この変更後の走行状態を、車両2の操作θFFと調整係数Kp、Ki、Kdが適用された後の、次の走行状態として取得する。
報酬計算部43は、操作推論学習モデル50と調整係数推論学習モデル70の強化学習に使用される報酬を計算する。
より詳細には、操作報酬計算部44は、走行状態と、これに対応して操作推論学習モデル50により推論された操作θFF、及び当該操作θFFを基に新たに生成された次の走行状態を基に、適切に設計された式により報酬を計算する。また、調整係数報酬計算部47は、走行状態と、これに対応して調整係数推論学習モデル70により推論された調整係数Kp、Ki、Kd、及び当該調整係数Kp、Ki、Kdを基に新たに生成された次の走行状態を基に、適切に設計された式により報酬を計算する。
本実施形態においては、推論周期Tnnよりも制御周期Tdrが短いため、推論周期Tnnの間に制御周期Tdr間隔で複数回、ドライブロボット4が制御される。これに伴い、本実施形態における報酬は、この複数回の各制御の後における指令車速vrefと検出車速vdetの誤差を平均した値の、絶対値として設定されている。すなわち、本実施形態においては、上記のような絶対値を計算し、これが0に近いほど、高い報酬となるように設計されている。
後述する第1及び第2行動価値推論学習モデル60、80は、行動価値を、報酬が小さいほどこれが高くするように計算し、操作推論学習モデル50と調整係数推論学習モデル70はこれらの行動価値が高くなるような操作θFFや調整係数Kp、Ki、Kdを出力するように、強化学習が行われる。
As a result of controlling the
The
More specifically, the operation
In the present embodiment, since the control cycle Tdr is shorter than the inference cycle Tnn, the
The first and second action value
操作報酬計算部44は、走行状態、これに対応して推論された操作θFF、当該操作θFFを基に新たに生成された次の走行状態、及び計算した報酬を、学習データ成形部33に送信する。学習データ成形部33は、これらを適切に成形して学習データ記憶部35に保存する。これらのデータは、後述する第1行動価値推論学習モデル60の学習に使用される。
また、調整係数推論部45は、走行状態、これに対応して推論された調整係数Kp、Ki、Kd、当該調整係数Kp、Ki、Kdを基に新たに生成された次の走行状態、及び計算した報酬を、学習データ成形部33に送信する。学習データ成形部33は、これらを適切に成形して学習データ記憶部35に保存する。これらのデータは、後述する第2行動価値推論学習モデル80の学習に使用される。
このようにして、操作θFFと調整係数Kp、Ki、Kdの推論と、この推論結果に対応した、次の走行状態の取得、及び報酬の計算が、第1及び第2行動価値推論学習モデル60、80の学習に十分なデータが蓄積されるまで、繰り返し行われる。
The operation
Further, the adjustment
In this way, the inference of the operation θ FF and the adjustment coefficients Kp, Ki, and Kd, the acquisition of the next running state corresponding to the inference result, and the calculation of the reward are the first and second action value inference learning models. It is repeated until sufficient data is accumulated for learning 60 and 80.
学習データ記憶部35に、第1行動価値推論学習モデル60の学習に十分な量の走行データが蓄積されると、第1行動価値推論部42は第1行動価値推論学習モデル60を学習する。第1行動価値推論学習モデル60は、機械学習器が学習されることにより、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される、適切な学習パラメータが学習された学習済みモデルとなる。
強化学習部40は全体として、操作推論学習モデル50が推論した操作θFFがどの程度適切であったかを示す行動価値を計算し、操作推論学習モデル50が、この行動価値が高くなるような操作θFFを出力するように、強化学習を行う。行動価値は、走行状態と、これに対する操作θFFを引数として、報酬が大きいほど行動価値を高くするように設計された関数として表わされる。本実施形態においては、この関数の計算を、走行状態と操作θFFを入力として、行動価値を出力するように設計された、関数近似器としての第1行動価値推論学習モデル60により行う。
When a sufficient amount of running data for learning the first action value
As a whole, the
操作学習データ生成部34は、学習データ記憶部35内の学習データを成形して、第1行動価値推論部42へ送信する。
第1行動価値推論部42は、成形された学習データを受信し、第1行動価値推論学習モデル60を機械学習させる。
本実施形態においては、第1行動価値推論学習モデル60は、走行状態と操作θFFの各々に対応する入力ノードを備えた入力層と、複数の中間層、及び操作θFFに関する行動価値に対応する出力ノードを備えた、ニューラルネットワークである。第1行動価値推論学習モデル60は、操作推論学習モデル50と同様な構造のニューラルネットワークにより実現されているため、構造上の詳細な説明を割愛する。
The operation learning
The first action
In the present embodiment, the first action value
操作報酬計算部44は、TD(Temporal Difference)誤差、すなわち、操作θFFを基にした制御を行う前の行動価値と、制御後の行動価値の誤差を小さくして、行動価値として適切な値が出力されるように、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値を、誤差逆伝搬法、確率的勾配降下法により調整する。このように、現状の操作推論学習モデル50によって推論された操作θFFを適切に評価できるように、第1行動価値推論学習モデル60を学習させる。
The operation
また、同様に、学習データ記憶部35に、調整係数推論学習モデル70の学習に十分な量の走行データが蓄積されると、調整係数推論部45は第2行動価値推論学習モデル80を学習する。第2行動価値推論学習モデル80は、機械学習器が学習されることにより、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される、適切な学習パラメータが学習された学習済みモデルとなる。
強化学習部40は全体として、調整係数推論学習モデル70が推論した調整係数Kp、Ki、Kdがどの程度適切であったかを示す行動価値を計算し、調整係数推論学習モデル70が、この行動価値が高くなるような調整係数Kp、Ki、Kdを出力するように、強化学習を行う。行動価値は、走行状態と、これに対する調整係数Kp、Ki、Kdを引数として、報酬が大きいほど行動価値を高くするように設計された関数として表わされる。本実施形態においては、この関数の計算を、走行状態と調整係数Kp、Ki、Kdを入力として、行動価値を出力するように設計された、関数近似器としての第2行動価値推論学習モデル80により行う。
Similarly, when a sufficient amount of running data for learning the adjustment coefficient
As a whole, the
調整係数学習データ生成部36は、学習データ記憶部35内の学習データを成形して、第2行動価値推論部46へ送信する。
第2行動価値推論部46は、成形された学習データを受信し、第2行動価値推論学習モデル80を機械学習させる。
本実施形態においては、第2行動価値推論学習モデル80は、走行状態と調整係数Kp、Ki、Kdの各々に対応する入力ノードを備えた入力層と、複数の中間層、及び調整係数Kp、Ki、Kdに関する行動価値に対応する出力ノードを備えた、ニューラルネットワークである。第2行動価値推論学習モデル80は、調整係数推論学習モデル70と同様な構造のニューラルネットワークにより実現されているため、構造上の詳細な説明を割愛する。
The adjustment coefficient learning
The second action
In the present embodiment, the second action value
調整係数推論部45は、TD誤差、すなわち、調整係数Kp、Ki、Kdを基にした制御を行う前の行動価値と、制御後の行動価値の誤差を小さくして、行動価値として適切な値が出力されるように、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値を、誤差逆伝搬法、確率的勾配降下法により調整する。このように、現状の調整係数推論学習モデル70によって推論された調整係数Kp、Ki、Kdを適切に評価できるように、第2行動価値推論学習モデル80を学習させる。
The adjustment
第1及び第2行動価値推論学習モデル60、80の学習が進むと、第1及び第2行動価値推論学習モデル60、80の各々は、より適切な行動価値の値を出力するようになる。すなわち、第1及び第2行動価値推論学習モデル60、80の各々が出力する行動価値の値が学習前とは変わるため、これに伴い、行動価値が高くなるような操作θFFと調整係数Kp、Ki、Kdを出力するように設計された操作推論学習モデル50と調整係数推論学習モデル70の各々を更新する必要がある。このため、操作内容推論部41と調整係数推論部45は、操作推論学習モデル50と調整係数推論学習モデル70を学習する。
具体的には、操作内容推論部41と調整係数推論部45の各々は、例えば行動価値の負値を損失関数とし、これをできるだけ小さくするような、すなわち行動価値が大きくなるような操作θFFと調整係数Kp、Ki、Kdを出力するように、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値を、誤差逆伝搬法、確率的勾配降下法により調整して、操作推論学習モデル50と調整係数推論学習モデル70の各々を学習させる。
操作推論学習モデル50と調整係数推論学習モデル70の各々が学習され更新されると、出力される操作θFFと調整係数Kp、Ki、Kdが変化するため、再度走行データを蓄積し、これを基に第1及び第2行動価値推論学習モデル60、80を学習する。
このように、学習部30は、操作推論学習モデル50及び調整係数推論学習モデル70と、第1及び第2行動価値推論学習モデル60、80との学習を互いに繰り返すことにより、これら学習モデル50、60、70、80を強化学習する。
学習部30は、この強化学習を、所定の学習終了基準を満たすまで実行する。
As the learning of the first and second action value
Specifically, each of the operation
When each of the operation
In this way, the
The
次に、車両2の性能測定に際して操作θFFと調整係数Kp、Ki、Kdを推論する場合での、すなわち、操作推論学習モデル50と調整係数推論学習モデル70の強化学習が終了した後における、学習部30の各構成要素の挙動について説明する。
Next, in the case of inferring the operation θ FF and the adjustment coefficients Kp, Ki, and Kd when measuring the performance of the
指令車速生成部31は指令車速vrefを、ドライブロボット制御部20と推論データ成形部32に送信する。
ドライブロボット制御部20は、要求駆動力Fref、検出エンジン回転数ndet、検出エンジン温度ddet、及び検出車速(車速)vdetを、推論データ成形部32へ送信する。
推論データ成形部32は、要求駆動力Fref、検出エンジン回転数ndet、検出エンジン温度ddet、及び検出車速(車速)vdet、及び指令車速vrefを走行状態として受信し、適切に成形した後に、強化学習部40の操作内容推論部41と調整係数推論部45に送信する。
操作内容推論部41は、走行状態を受信すると、これを基に、学習が完了した操作推論学習モデル50により、次の推論周期Tnnの間、車両を指令車速vrefに従って走行させるための、車両2の操作θFFを推論する。
同様に、調整係数推論部45は、走行状態を受信すると、これを基に、学習中の調整係数推論学習モデル70により、次の推論周期Tnnの間、車両を指令車速vrefに従って走行させるための、操作内容推論部41により推論された車両2の操作θFFに適用される調整係数Kp、Ki、Kdを推論する。
The command vehicle
The drive
The inference
Operation
Similarly, adjustment
フィードバック操作量演算部26は、推論された調整係数Kp、Ki、Kd、すなわち比例ゲインKp、積分ゲインKi、及び微分ゲインKdを基に、推論周期Tnnより短い制御周期Tdr間隔で、PID制御により、調整量θFBを演算する。この演算において使用される調整係数Kp、Ki、Kdは、制御周期Tdrよりも長い推論周期Tnn間隔で、調整係数推論部45によって推論され、更新される。
操作補完部24は、フィードバック操作量演算部26から調整量θFBを受信し、推論された車両2の操作θFFを基に、推論周期Tnnより短い制御周期Tdr間隔で、調整後操作θrefを計算する。この演算において使用される車両2の操作θFFは、制御周期Tdrよりも長い推論周期Tnn間隔で、操作内容推論部41によって推論され、更新される。
操作補完部24は、この調整後操作θrefを、ドライブロボット4に送信する。ドライブロボット4は、調整後操作θrefを基にアクチュエータ4cを駆動させてアクセルペダル2cを操作することにより、アクセル開度を変更する。
The feedback manipulated
The operation complement unit 24 receives the adjustment amount θ FB from the feedback operation
The
次に、図1〜図3、及び図4、5を用いて、上記のドライブロボット4の制御装置11によりドライブロボット4を制御する方法を説明する。図4は、ドライブロボット4の制御方法における、学習時のフローチャートである。図5は、ドライブロボット4の制御方法における、性能測定のために車両2を走行制御させる際のフローチャートである。
まず、図4を用いて、学習時における動作を説明する。
Next, a method of controlling the
First, the operation at the time of learning will be described with reference to FIG.
学習が開始されると(ステップS1)、各学習モデル50、60、70、80等の各パラメータが初期設定される(ステップS3)。
その後、車両2の走行データを収集する(ステップS5)。より詳細には、制御装置11が、学習がまだ終了していない、学習途中の操作推論学習モデル50、調整係数推論学習モデル70によって推論された車両2の操作θFFと調整係数Kp、Ki、Kdによって車両2を走行制御することにより、走行データが蓄積される。
When learning is started (step S1), each parameter of each learning
After that, the traveling data of the
十分な走行データが学習データ記憶部35に蓄積されると、これを用いて、操作推論学習モデル50と調整係数推論学習モデル70を強化学習し、学習モデル50、70を更新する(ステップS7)。
操作推論学習モデル50と調整係数推論学習モデル70の更新が終了すると、これら操作推論学習モデル50と調整係数推論学習モデル70の学習が終了したか否かを判定する(ステップS9)。
学習が終了していないと判定された場合には(ステップS9のNo)、ステップS5へ遷移する。すなわち、制御装置11は走行データを更に収集し、これを用いた操作推論学習モデル50と調整係数推論学習モデル70の更新を繰り返す。
学習が終了したと判定された場合には(ステップS9のYes)、学習処理を終了する(ステップS11)。
When sufficient running data is accumulated in the learning
When the update of the operation
If it is determined that the learning has not been completed (No in step S9), the process proceeds to step S5. That is, the
When it is determined that the learning is completed (Yes in step S9), the learning process is ended (step S11).
次に、図5を用いて、実際に車両2の性能測定に際して車両2の操作θFFと調整係数Kp、Ki、Kdを推論する場合での、すなわち、操作推論学習モデル50と調整係数推論学習モデル70の強化学習が終了した後において、車両2を走行制御する際の動作について説明する。
Next, using FIG. 5, when actually inferring the operation θ FF of the
車両2が走行を開始すると(ステップS51)、走行環境が初期設定され、制御装置11は、この時点での走行状態を初期状態として観測する(ステップS53)。
推論データ成形部32は、走行状態を適切に成形した後に、強化学習部40の操作内容推論部41と調整係数推論部45に送信する。
操作内容推論部41は、走行状態を受信すると、これを基に、次の推論周期Tnnの間、車両を指令車速vrefに従って走行させるための、車両2の操作θFFを推論する。
同様に、調整係数推論部45は、走行状態を受信すると、これを基に、次の推論周期Tnnの間、車両を指令車速vrefに従って走行させるための、操作内容推論部41により推論された車両2の操作θFFに適用される調整係数Kp、Ki、Kdを推論する(ステップS55)。
When the
The inference
When the operation
Similarly, adjustment
フィードバック操作量演算部26は、推論周期Tnnより短い制御周期Tdr間隔で、推論された調整係数Kp、Ki、Kdを基に、PID制御により、調整量θFBを演算する。
操作補完部24は、推論周期Tnnより短い制御周期Tdr間隔で、フィードバック操作量演算部26から調整量θFBを受信し、推論された車両2の操作θFFを基に、調整後操作θrefを計算する。
操作補完部24は、この調整後操作θrefを、ドライブロボット4に送信する。ドライブロボット4は、調整後操作θrefを基にアクチュエータ4cを駆動させてアクセルペダル2cを操作することにより、アクセル開度を変更する。
そして、駆動状態取得部23は、操作後の車両2の走行状態を、ステップS53と同様な要領で、再度取得する(ステップS57)。
駆動状態取得部23は、操作後の車両2の走行状態を、学習部30へ送信する。
The feedback manipulated variable calculation unit 26 calculates the adjusted variable θ FB by PID control based on the inferred adjustment coefficients Kp, Ki, and Kd at a control cycle Tdr interval shorter than the inference cycle Tnn.
The operation complement unit 24 receives the adjustment amount θ FB from the feedback operation
The
Then, the drive
The drive
制御装置11は、車両2の走行が終了したか否かを判定する(ステップS59)。
走行が終了していないと判定された場合には(ステップS59のNo)、ステップS55へ遷移する。すなわち、制御装置11は、ステップS57で取得した走行状態を基にした操作θFFと調整係数Kp、Ki、Kdの推論と、更なる走行状態の観測を繰り返す。
走行が終了したと判定された場合には(ステップS59のYes)、走行処理を終了する(ステップS61)。
The
If it is determined that the running has not been completed (No in step S59), the process proceeds to step S55. That is, the control device 11 repeats the operation θ FF based on the traveling state acquired in step S57, the inference of the adjustment coefficients Kp, Ki, and Kd, and the observation of the further traveling state.
When it is determined that the running is completed (Yes in step S59), the running process is finished (step S61).
次に、上記のドライブロボット4の制御装置及び制御方法の効果について説明する。
Next, the effects of the control device and the control method of the
本実施形態のドライブロボット4の制御装置11は、車両2に搭載されて車両2を走行させるドライブロボット(自動操縦ロボット)4を、車両2が規定された指令車速vrefに従って走行するように制御する、ドライブロボット4の制御装置11であって、車速vdetと指令車速vrefを含む、車両2の走行状態を基に、車両2を指令車速vrefに従って走行させるような車両2の操作θFFを推論するように、機械学習器を強化学習して生成された操作推論学習モデル50により、操作θFFを推論周期(第1の周期)Tnnで推論する操作内容推論部41と、走行状態を基に、操作内容推論部41により推論された操作θFFを推論周期Tnnの間に調整する、調整係数Kp、Ki、Kdを推論するように、機械学習器を強化学習して生成された調整係数推論学習モデル70により、調整係数Kp、Ki、Kdを推論する調整係数推論部45と、推論周期Tnnの間に、調整係数Kp、Ki、Kdにより操作θFFを調整して調整後操作θrefを生成し、当該調整後操作θrefに基づきドライブロボット4を制御する車両操作制御部22と、を備えている。
また、本実施形態のドライブロボット4の制御方法は、車両2に搭載されて車両2を走行させるドライブロボット(自動操縦ロボット)4を、車両2が規定された指令車速vrefに従って走行するように制御する、ドライブロボット4の制御方法であって、車速vdetと指令車速vrefを含む、車両2の走行状態を基に、車両2を指令車速vrefに従って走行させるような車両2の操作θFFを推論するように、機械学習器を強化学習して生成された操作推論学習モデル50により、操作θFFを推論周期(第1の周期)Tnnで推論し、走行状態を基に、推論された操作θFFを推論周期Tnnの間に調整する、調整係数Kp、Ki、Kdを推論するように、機械学習器を強化学習して生成された調整係数推論学習モデル70により、調整係数Kp、Ki、Kdを推論し、推論周期Tnnの間に、調整係数Kp、Ki、Kdにより操作θFFを調整して調整後操作θrefを生成し、当該調整後操作θrefに基づきドライブロボット4を制御する。
上記のような構成によれば、操作推論学習モデル50は、車速vdetと指令車速vrefを含む、車両2の走行状態を基に、車両2を指令車速vrefに従って走行させるような車両2の操作θFFを推論するように強化学習されている。このため、少なくとも操作推論学習モデル50が車両2の操作θFFを推論する周期である推論周期Tnnおきに、車両2を指令車速vrefに精度よく追従させるような車両2の操作θFFが出力される。
ここで、上記のような操作推論学習モデル50は、演算量が多くなる傾向がある。したがって、ドライブロボット4の制御周期Tdrよりも推論周期Tnnは長くなり、一つの推論周期Tnn内に、複数の制御時刻が含まれる。このため、車両2の操作θFFは、制御時刻の各々に個別に対応するように出力されない。このような場合に、複数の制御時刻の各々に同一の車両2の操作θFFを適用すると、緻密な制御ができず、指令車速への追従性が向上しない。
これに対し、本実施形態においては、走行状態を基に、推論周期Tnnの間、推論された操作θFFを調整する、調整係数Kp、Ki、Kdを推論するように強化学習されている調整係数推論学習モデル70により、調整係数Kp、Ki、Kdが推論される。すなわち、推論周期Tnnに含まれる各制御時刻において、操作θFFはこの調整係数Kp、Ki、Kdによって随時調整されて、ドライブロボット4が制御される。これにより、推論周期Tnnと制御周期Tdrのサンプリング差が補完され、一定の時間の間、操作θFFが新たに推論されなくとも、その間に、操作θFFを調整しつつ使用することができる。したがって、指令車速への追従性が向上する。
また、推論周期Tnnに含まれる、ドライブロボット4の複数の制御時刻において、同一の操作θFFが調整されつつ使用されるので、操作推論学習モデル50は、一度の推論において、複数の操作θFFを推論する必要がない。これにより、操作推論学習モデル50の構造を簡潔にすることができ、かつ操作推論学習モデル50を容易に機械学習させることができる。
The
Further, the control method of the
According to the above configuration, the operation
Here, the operation
On the other hand, in the present embodiment, the adjustments that are strengthened and learned to infer the adjustment coefficients Kp, Ki, and Kd that adjust the inferred operation θ FF during the inference cycle Tnn based on the running state. The coefficient
Further, since the same operation θ FF is adjusted and used at a plurality of control times of the
また、推論周期Tnnは、ドライブロボット4を制御する制御周期(第2の周期)Tdrよりも長く設定され、調整係数推論学習モデル70も推論周期Tnnごとに調整係数Kp、Ki、Kdを推論し、操作推論学習モデル50と調整係数推論学習モデル70の各々は、一度の推論で、次の推論周期Tnnの間に使用される車両2の操作θFFと調整係数Kp、Ki、Kdのみを推論し、車両操作制御部22は、最新の車両2の操作θFFと調整係数Kp、Ki、Kdを使用して、次の推論が行われるまでの間に、調整後操作θrefを生成する。
また、調整係数Kp、Ki、Kdは、比例ゲインKp、積分ゲインKi、及び微分ゲインKdを含み、車両操作制御部22は、調整係数Kp、Ki、Kdを基に、フィードバック制御により、操作θFFの調整量θFBを計算し、当該調整量θFBを基に操作θFFを調整して調整後操作θrefを生成する。
更に、操作θFFの対象は、アクセルペダル2cを含む。
上記のような構成によれば、ドライブロボット4の制御装置11を適切に実現可能である。
Further, the inference cycle Tnn is set longer than the control cycle (second cycle) Tdr that controls the
Further, the adjustment coefficients Kp, Ki, and Kd include the proportional gain Kp, the integral gain Ki, and the differential gain Kd, and the vehicle
Further, the target of the operation θ FF includes the
According to the above configuration, the
[実施形態の第1変形例]
次に、図6を用いて、上記実施形態として示したドライブロボット4の制御装置11及び制御方法の変形例を説明する。図6は、本変形例におけるドライブロボットの制御装置のデータの流れを示す処理ブロック図である。
本変形例におけるドライブロボット4の制御装置は、上記実施形態のドライブロボット4の制御装置11とは、車両操作制御部のフィードバック操作量演算部26Aが、PID制御の積分項により蓄積される積分バッファi_buffを計算して調整係数推論部45Aへ送信する点が異なっている。
これに伴い、調整係数推論部45A内に設けられた調整係数推論学習モデルは、入力層に、走行状態に対応する入力ノードに加えて、積分バッファi_buffに対応する入力ノードを備えた構成となっている。これにより、調整係数推論学習モデルは、走行状態と、積分バッファi_buffを基に、調整係数を推論する。
[First Modified Example of Embodiment]
Next, a modified example of the
The control device of the
Along with this, the adjustment coefficient inference learning model provided in the adjustment
本第1変形例が、既に説明した実施形態と同様な効果を奏することは言うまでもない。
本変形例の構成においては、調整係数推論学習モデルの推論結果である調整係数が使用される、調整係数推論学習モデルの後段に位置するフィードバック操作量演算部26Aにおいて使用される積分バッファi_buffが、調整係数推論学習モデルの入力となっている。したがって、上記実施形態よりも、調整係数の精度が向上する。
Needless to say, this first modification has the same effect as that of the embodiment described above.
In the configuration of this modification, the integration buffer i_buff used in the feedback manipulation
[実施形態の第2変形例]
次に、図7を用いて、上記第1変形例として示したドライブロボット4の制御装置及び制御方法の、更なる変形例を説明する。図7は、本変形例におけるドライブロボットの制御装置のデータの流れを示す処理ブロック図である。
本変形例におけるドライブロボット4の制御装置は、上記第1変形例のドライブロボット4の制御装置とは、操作内容推論部41B内の操作推論学習モデルに、調整係数推論学習モデルが統合され、操作推論学習モデルと、調整係数推論学習モデルが、一つの学習モデルとして実現されている点が異なっている。
[Second variant of the embodiment]
Next, a further modification of the control device and control method of the
The control device of the
すなわち、本変形例における、操作内容推論部41Bに設けられた学習モデルは、走行状態及び積分バッファi_buffの各々に対応する入力ノードを備えた入力層と、複数の中間層、及び車両2の操作θFFと調整係数Kp、Ki、Kdの各々に対応する出力ノードを備えた、ニューラルネットワークである。
これに伴い、この学習モデルを強化学習する際に用いられる行動価値推論学習モデルは、走行状態と、これに対する車両2の操作θFF、及び調整係数Kp、Ki、Kdを入力として、報酬が大きいほど高い行動価値出力するように設計された、関数近似器としての学習モデルとなっている。
That is, the learning model provided in the operation
Along with this, the behavioral value inference learning model used for reinforcement learning of this learning model has a large reward by inputting the running state, the operation θ FF of the vehicle 2 with respect to this, and the adjustment coefficients Kp, Ki, and Kd. It is a learning model as a function approximator designed to output a moderately high behavioral value.
このような構成においては、操作内容推論部41Bが調整係数Kp、Ki、Kdを出力するようになり、これがフィードバック操作量演算部26Aへと送信される。
また、フィードバック操作量演算部26Aが出力した積分バッファi_buffは、操作内容推論部41Bへと送信されて、学習モデルに入力される。
In such a configuration, the operation
Further, the integration buffer i_buff output by the feedback manipulated
本第2変形例が、既に説明した実施形態と同様な効果を奏することは言うまでもない。
本変形例の構成においては、学習モデルの数が低減されるため、より少ないリソース環境下においても実装が可能となる。
Needless to say, this second modification has the same effect as that of the embodiment described above.
In the configuration of this modification, the number of learning models is reduced, so that it can be implemented even in a smaller resource environment.
なお、本発明のドライブロボットの制御装置及び制御方法は、図面を参照して説明した上述の実施形態及び各変形例に限定されるものではなく、その技術的範囲において他の様々な変形例が考えられる。
例えば、上記実施形態においては、車両の操作としてアクセルペダルの操作量を出力したが、これに加え、ブレーキペダル等の、他の操作を出力しても構わない。
また、上記実施形態においては、操作推論学習モデル50と調整係数推論学習モデル70の学習と、第1行動価値推論学習モデル60と第2行動価値推論学習モデル80の学習が繰り返されるように説明した。しかし、十分な精度で学習されるのであれば、これら学習モデル50、60、70、80を学習する順序は、これに限られない。例えば、操作推論学習モデル50と第1行動価値推論学習モデル60の学習を繰り返してこれらの学習を完了させた後、調整係数推論学習モデル70と第2行動価値推論学習モデル80の学習を繰り返し、これらの学習を完了させるようにしてもよい。
これ以外にも、本発明の主旨を逸脱しない限り、上記実施形態及び各変形例で挙げた構成を取捨選択したり、他の構成に適宜変更したりすることが可能である。
The control device and control method for the drive robot of the present invention are not limited to the above-described embodiment and each modification described with reference to the drawings, and various other modifications are included in the technical scope thereof. Conceivable.
For example, in the above embodiment, the operation amount of the accelerator pedal is output as the operation of the vehicle, but in addition to this, other operations such as the brake pedal may be output.
Further, in the above embodiment, the learning of the operation
In addition to this, as long as the gist of the present invention is not deviated, the configurations given in the above-described embodiment and each modification can be selected or changed to other configurations as appropriate.
1 試験装置
2 車両
2c アクセルペダル
3 シャシーダイナモメータ
4 ドライブロボット(自動操縦ロボット)
11 制御装置
20 ドライブロボット制御部
22 車両操作制御部
23 駆動状態取得部
24 操作補完部
25 走行抵抗演算部
26、26A フィードバック操作量演算部
27 車両駆動力演算部
30 学習部
31 指令車速生成部
35 学習データ記憶部
40 強化学習部
41、41B 操作内容推論部
42 第1行動価値推論部
43 報酬計算部
45、45A 調整係数推論部
46 第2行動価値推論部
50 操作推論学習モデル
60 第1行動価値推論学習モデル
70 調整係数推論学習モデル
80 第2行動価値推論学習モデル
θFF フィードフォワード変更量(操作)
θFB フィードバック変更量(調整量)
θref 調整後操作
Kp 比例ゲイン(調整係数)
Ki 積分ゲイン(調整係数)
Kd 微分ゲイン(調整係数)
i_buff 積分バッファ
vdet 検出車速(車速)
vref 指令車速
1
11
θ FB feedback change amount (adjustment amount)
Operation after θ ref adjustment Kp proportional gain (adjustment coefficient)
Ki integrated gain (adjustment coefficient)
Kd derivative gain (adjustment coefficient)
i_buff Integral buffer v det detection Vehicle speed (vehicle speed)
v ref command vehicle speed
Claims (7)
車速と前記指令車速を含む、前記車両の走行状態を基に、前記車両を前記指令車速に従って走行させるような前記車両の操作を推論するように、機械学習器を強化学習して生成された操作推論学習モデルにより、前記操作を第1の周期で推論する操作内容推論部と、
前記走行状態を基に、前記操作内容推論部により推論された前記操作を前記第1の周期の間に調整する、調整係数を推論するように、機械学習器を強化学習して生成された調整係数推論学習モデルにより、前記調整係数を推論する調整係数推論部と、
前記第1の周期の間に、前記調整係数により前記操作を調整して調整後操作を生成し、当該調整後操作に基づき前記自動操縦ロボットを制御する車両操作制御部と、
を備えている、自動操縦ロボットの制御装置。 An autopilot robot control device that controls an autopilot robot mounted on a vehicle to drive the vehicle so that the vehicle travels according to a specified command vehicle speed.
An operation generated by reinforcement learning of a machine learning device so as to infer an operation of the vehicle such that the vehicle travels according to the commanded vehicle speed based on the traveling state of the vehicle including the vehicle speed and the commanded vehicle speed. An operation content inference unit that infers the operation in the first cycle using an inference learning model, and an operation content inference unit.
Adjustment generated by strengthening learning of a machine learning device so as to infer an adjustment coefficient that adjusts the operation inferred by the operation content inference unit during the first period based on the running state. An adjustment coefficient inference unit that infers the adjustment coefficient using a coefficient inference learning model, and an adjustment coefficient inference unit.
During the first cycle, the vehicle operation control unit adjusts the operation according to the adjustment coefficient to generate the adjusted operation, and controls the autopilot robot based on the adjusted operation.
The control device of the autopilot robot.
前記調整係数推論学習モデルも前記第1の周期ごとに前記調整係数を推論し、
前記操作推論学習モデルと前記調整係数推論学習モデルの各々は、一度の推論で、次の前記第1の周期の間に使用される前記車両の操作と前記調整係数のみを推論し、
前記車両操作制御部は、最新の前記車両の操作と前記調整係数を使用して、次の推論が行われるまでの間で、前記調整後操作を生成する、請求項1に記載の自動操縦ロボットの制御装置。 The first cycle is set longer than the second cycle for controlling the autopilot robot.
The adjustment coefficient inference learning model also infers the adjustment coefficient for each first cycle.
Each of the operation inference learning model and the adjustment coefficient inference learning model infers only the operation of the vehicle and the adjustment coefficient used during the next first period in one inference.
The autopilot robot according to claim 1, wherein the vehicle operation control unit uses the latest operation of the vehicle and the adjustment coefficient to generate the adjusted operation until the next inference is made. Control device.
前記車両操作制御部は、前記調整係数を基に、フィードバック制御により、前記操作の調整量を計算し、当該調整量を基に前記操作を調整して前記調整後操作を生成する、請求項1または2に記載の自動操縦ロボットの制御装置。 The adjustment coefficients include proportional gain, integral gain, and derivative gain.
The vehicle operation control unit calculates the adjustment amount of the operation by feedback control based on the adjustment coefficient, adjusts the operation based on the adjustment amount, and generates the adjusted operation. Alternatively, the control device for the autopilot robot according to 2.
前記調整係数推論学習モデルは、前記走行状態と、前記積分バッファを基に、前記調整係数を推論する、請求項3に記載の自動操縦ロボットの制御装置。 The vehicle operation control unit calculates the integration buffer and
The control device for an autopilot robot according to claim 3, wherein the adjustment coefficient inference learning model infers the adjustment coefficient based on the traveling state and the integration buffer.
車速と前記指令車速を含む、前記車両の走行状態を基に、前記車両を前記指令車速に従って走行させるような前記車両の操作を推論するように、機械学習器を強化学習して生成された操作推論学習モデルにより、前記操作を第1の周期で推論し、
前記走行状態を基に、推論された前記操作を前記第1の周期の間に調整する、調整係数を推論するように、機械学習器を強化学習して生成された調整係数推論学習モデルにより、前記調整係数を推論し、
前記第1の周期の間に、前記調整係数により前記操作を調整して調整後操作を生成し、当該調整後操作に基づき前記自動操縦ロボットを制御する、自動操縦ロボットの制御方法。 A control method for an autopilot robot that controls an autopilot robot mounted on a vehicle to drive the vehicle so that the vehicle travels according to a specified command vehicle speed.
An operation generated by reinforcement learning of a machine learning device so as to infer an operation of the vehicle that causes the vehicle to travel according to the commanded vehicle speed based on the traveling state of the vehicle including the vehicle speed and the commanded vehicle speed. The operation is inferred in the first cycle by the inference learning model, and the operation is inferred in the first cycle.
An adjustment coefficient inference learning model generated by reinforcement learning of a machine learning device so as to infer an adjustment coefficient that adjusts the inferred operation during the first period based on the running state. Infer the adjustment coefficient and
A control method for an autopilot robot, which adjusts the operation according to the adjustment coefficient to generate an adjusted operation during the first cycle, and controls the autopilot robot based on the adjusted operation.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020018391A JP6908144B1 (en) | 2020-02-06 | 2020-02-06 | Control device and control method for autopilot robot |
PCT/JP2020/046988 WO2021157212A1 (en) | 2020-02-06 | 2020-12-16 | Control device and control method for automatic driving robot |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020018391A JP6908144B1 (en) | 2020-02-06 | 2020-02-06 | Control device and control method for autopilot robot |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6908144B1 JP6908144B1 (en) | 2021-07-21 |
JP2021124403A true JP2021124403A (en) | 2021-08-30 |
Family
ID=76919745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020018391A Active JP6908144B1 (en) | 2020-02-06 | 2020-02-06 | Control device and control method for autopilot robot |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6908144B1 (en) |
WO (1) | WO2021157212A1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210114596A1 (en) * | 2019-10-18 | 2021-04-22 | Toyota Jidosha Kabushiki Kaisha | Method of generating vehicle control data, vehicle control device, and vehicle control system |
WO2023228795A1 (en) * | 2022-05-24 | 2023-11-30 | 株式会社堀場製作所 | Machine learning device, vehicle testing system, machine learning method, and vehicle testing method |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112021007838T5 (en) * | 2021-08-23 | 2024-04-18 | Mitsubishi Electric Corporation | NEURAL NETWORK CONTROL AND LEARNING METHODS FOR NEURAL NETWORK CONTROL |
FR3135942A1 (en) * | 2022-05-30 | 2023-12-01 | Psa Automobiles Sa | Method for learning the brake pedal of a vehicle by a driving robot |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006013922A1 (en) * | 2004-08-06 | 2006-02-09 | Honda Motor Co., Ltd. | Control device for vehicle |
JP2008190385A (en) * | 2007-02-02 | 2008-08-21 | Mitsubishi Electric Corp | Control device of internal combustion engine |
JP2014115168A (en) * | 2012-12-07 | 2014-06-26 | Aisin Aw Co Ltd | Vehicular travel simulation device, driver model construction method and driver model construction program |
CN104411561A (en) * | 2012-06-27 | 2015-03-11 | 斯堪尼亚商用车有限公司 | Vehicle speed and coasting control method and system |
WO2019051009A1 (en) * | 2017-09-07 | 2019-03-14 | iMFLUX Inc. | Systems and methods for autotuning pid control of injection molding machines |
JP2019138273A (en) * | 2018-02-15 | 2019-08-22 | 株式会社明電舎 | Vehicle speed control device and vehicle speed control method |
JP2019164812A (en) * | 2019-04-26 | 2019-09-26 | 本田技研工業株式会社 | Vehicle control system and method, and travel support server |
US20190367025A1 (en) * | 2018-05-31 | 2019-12-05 | Visteon Global Technologies, Inc. | Adaptive longitudinal control using reinforcement learning |
-
2020
- 2020-02-06 JP JP2020018391A patent/JP6908144B1/en active Active
- 2020-12-16 WO PCT/JP2020/046988 patent/WO2021157212A1/en active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006013922A1 (en) * | 2004-08-06 | 2006-02-09 | Honda Motor Co., Ltd. | Control device for vehicle |
JP2008190385A (en) * | 2007-02-02 | 2008-08-21 | Mitsubishi Electric Corp | Control device of internal combustion engine |
CN104411561A (en) * | 2012-06-27 | 2015-03-11 | 斯堪尼亚商用车有限公司 | Vehicle speed and coasting control method and system |
JP2014115168A (en) * | 2012-12-07 | 2014-06-26 | Aisin Aw Co Ltd | Vehicular travel simulation device, driver model construction method and driver model construction program |
WO2019051009A1 (en) * | 2017-09-07 | 2019-03-14 | iMFLUX Inc. | Systems and methods for autotuning pid control of injection molding machines |
JP2019138273A (en) * | 2018-02-15 | 2019-08-22 | 株式会社明電舎 | Vehicle speed control device and vehicle speed control method |
US20190367025A1 (en) * | 2018-05-31 | 2019-12-05 | Visteon Global Technologies, Inc. | Adaptive longitudinal control using reinforcement learning |
JP2019164812A (en) * | 2019-04-26 | 2019-09-26 | 本田技研工業株式会社 | Vehicle control system and method, and travel support server |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210114596A1 (en) * | 2019-10-18 | 2021-04-22 | Toyota Jidosha Kabushiki Kaisha | Method of generating vehicle control data, vehicle control device, and vehicle control system |
US11654915B2 (en) * | 2019-10-18 | 2023-05-23 | Toyota Jidosha Kabushiki Kaisha | Method of generating vehicle control data, vehicle control device, and vehicle control system |
WO2023228795A1 (en) * | 2022-05-24 | 2023-11-30 | 株式会社堀場製作所 | Machine learning device, vehicle testing system, machine learning method, and vehicle testing method |
Also Published As
Publication number | Publication date |
---|---|
JP6908144B1 (en) | 2021-07-21 |
WO2021157212A1 (en) | 2021-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6908144B1 (en) | Control device and control method for autopilot robot | |
WO2020183864A1 (en) | Learning system and learning method for operation inference learning model for controlling automatic driving robot | |
US6411944B1 (en) | Self-organizing control system | |
CN112668235A (en) | Robot control method of DDPG algorithm based on offline model pre-training learning | |
US5285377A (en) | Control apparatus structuring system | |
KR102313002B1 (en) | Vehicle speed control device and vehicle speed control method | |
CN109376493A (en) | A kind of radial base neural net car speed tracking of particle group optimizing | |
JP5738329B2 (en) | Simulation device | |
CN109189075B (en) | Model-free adaptive course control method for ship by using fuzzy forgetting factor | |
Ali et al. | Combined ANFIS method with FA, PSO, and ICA as Steering control optimization on electric car | |
CN115446867B (en) | Industrial mechanical arm control method and system based on digital twin technology | |
US20190317472A1 (en) | Controller and control method | |
CN113977583A (en) | Robot rapid assembly method and system based on near-end strategy optimization algorithm | |
CN110588654B (en) | Method for automatically setting corresponding PID control parameter of vehicle speed | |
Shelton et al. | Controlling a truck with an adaptive critic CMAC design | |
Pinte et al. | Learning strategies for wet clutch control | |
JP6866940B1 (en) | Control device and control method for autopilot robot | |
WO2022059484A1 (en) | Learning system and learning method for operation inference learning model for controlling automated driving robot | |
JP2021143882A (en) | Learning system and learning method for operation inference learning model that controls automatically manipulated robot | |
JP7110891B2 (en) | Autopilot robot control device and control method | |
CN115741692A (en) | High-precision control method and system for hydraulic mechanical arm based on data driving | |
CN118259660A (en) | Path planning method and system based on PPO improved algorithm | |
US20020198853A1 (en) | Controlling the self learning behavior of an autonomous agent | |
JP2021128510A (en) | Learning system and learning method for operation deduction learning model for controlling automatic operation robot | |
JP2024001584A (en) | Control unit and control method for automatic steering robot |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210107 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210118 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20210217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210601 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210614 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6908144 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |