JP2021143882A - Learning system and learning method for operation inference learning model that controls automatically manipulated robot - Google Patents
Learning system and learning method for operation inference learning model that controls automatically manipulated robot Download PDFInfo
- Publication number
- JP2021143882A JP2021143882A JP2020041429A JP2020041429A JP2021143882A JP 2021143882 A JP2021143882 A JP 2021143882A JP 2020041429 A JP2020041429 A JP 2020041429A JP 2020041429 A JP2020041429 A JP 2020041429A JP 2021143882 A JP2021143882 A JP 2021143882A
- Authority
- JP
- Japan
- Prior art keywords
- vehicle
- pedal
- learning
- model
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法に関する。 The present invention relates to a learning system and a learning method of an operation inference learning model that controls an autopilot robot.
一般に、普通自動車などの車両を製造、販売する際には、国や地域により規定された、特定の走行パターン(モード)により車両を走行させた際の燃費や排出ガスを測定し、これを表示する必要がある。
モードは、例えば、走行開始から経過した時間と、その時に到達すべき車速との関係として、グラフにより表わすことが可能である。この到達すべき車速は、車両へ与えられる達成すべき速度に関する指令という観点で、指令車速と呼ばれることがある。
上記のような、燃費や排出ガスに関する試験は、シャシーダイナモメータ上に車両を載置し、車両に搭載された自動操縦ロボット、所謂ドライブロボット(登録商標)により、モードに従って車両を運転させることにより行われる。
Generally, when manufacturing and selling vehicles such as ordinary automobiles, the fuel consumption and exhaust gas when the vehicle is driven according to a specific driving pattern (mode) specified by the country or region are measured and displayed. There is a need to.
The mode can be represented by a graph as, for example, the relationship between the time elapsed from the start of traveling and the vehicle speed to be reached at that time. This vehicle speed to be reached is sometimes referred to as a command vehicle speed in terms of a command regarding the speed to be achieved given to the vehicle.
The above tests on fuel consumption and exhaust gas are carried out by placing the vehicle on the chassis dynamometer and driving the vehicle according to the mode by the autopilot robot mounted on the vehicle, the so-called drive robot (registered trademark). Will be done.
指令車速には、許容誤差範囲が規定されている。車速が許容誤差範囲を逸脱すると、その試験は無効となるため、ドライブロボットの制御には、指令車速への高い追従性が求められる。このため、特に近年においては、ドライブロボットを、車両の現在の状態を入力すると、車両を指令車速に従って走行させるような操作を推論するように機械学習された学習モデルを用いて制御することがある。
例えば、特許文献1には、人間らしいペダル操作を行うドライバモデルを強化学習によって構築することが可能な車輌用走行シミュレーション装置、ドライバモデル構築方法及びドライバモデル構築プログラムが開示されている。
より詳細には、車輌用走行シミュレーション装置は、ドライバモデルのゲインの値を変更させながら、車輌モデルを複数回走行させ、この時に変更されたゲインの値を報酬値に基づいて評価することによって、ドライバモデルのゲインの設定を自動的に行う。上記ゲインの値は、車速の追従性を評価する車速報酬関数のみならず、アクセルペダルの操作の滑らかさを評価するアクセル報酬関数、ブレーキペダルの操作の滑らかさを評価するブレーキ報酬関数によっても評価が行われる。
特許文献1等において用いられる車両モデルとしては、通常、車両の各構成要素に対して、動作を模した物理モデルを各々作成し、これらを組み合わせた物理モデルとして作成される。
The margin of error is specified for the command vehicle speed. If the vehicle speed deviates from the permissible error range, the test becomes invalid, so that the control of the drive robot is required to have high followability to the commanded vehicle speed. For this reason, especially in recent years, the drive robot may be controlled using a machine-learned learning model to infer an operation that causes the vehicle to travel according to a commanded vehicle speed when the current state of the vehicle is input. ..
For example,
More specifically, the vehicle driving simulation device travels the vehicle model multiple times while changing the gain value of the driver model, and evaluates the changed gain value based on the reward value. The gain of the driver model is set automatically. The above gain value is evaluated not only by the vehicle speed reward function that evaluates the followability of the vehicle speed, but also by the accelerator reward function that evaluates the smoothness of the accelerator pedal operation and the brake reward function that evaluates the smoothness of the brake pedal operation. Is done.
As a vehicle model used in
特許文献1に開示されたような装置においては、車両の操作を推論する操作推論学習モデルを、車両モデルを基に学習している。このため、車両モデルの再現精度が低いと、操作推論学習モデルをどれだけ精密に学習させたとしても、操作推論学習モデルが推論する操作が、実際の車両にそぐわないものとなり得る。
車両モデルの再現精度向上に大きな影響を有する車両の特性として、アクセルペダルまたはブレーキペダルの、ペダル遊びが挙げられる。図11に示されるように、車両の座席に設けられたドライブロボットのアクチュエータによって、ペダルの踏み込み開始位置P1から、方向PDに、踏み込み限界位置P2までペダルを踏み込む場合を考える。すなわち、踏み込み開始位置P1は、ペダルの開度が0%の場合に相当し、踏み込み限界位置P2は、ペダルの開度が100%の場合に相当する。このとき、実際には、踏み込み開始位置P1からペダルを踏み込んだ直後に、アクセルペダルによる駆動、またはブレーキペダルによる減速が開始されるわけではなく、ペダルを踏み込んで既定の駆動開始位置P3に到達するまでの間は、ペダル操作が車両の挙動に反映されない。ペダル遊びとは、このような遊間を指す。また、踏み込み開始位置P1から駆動開始位置P3までのペダル開度の大きさHを、以下、ペダル遊び量と呼称する。
In the device as disclosed in
One of the characteristics of the vehicle that has a great influence on the improvement of the reproduction accuracy of the vehicle model is the pedal play of the accelerator pedal or the brake pedal. As shown in FIG. 11, consider a case where the actuator of the drive robot provided in the seat of the vehicle depresses the pedal from the pedal depressing start position P1 to the depressing limit position P2 in the direction PD. That is, the depression start position P1 corresponds to the case where the pedal opening degree is 0%, and the depression limit position P2 corresponds to the case where the pedal opening degree is 100%. At this time, in reality, the drive by the accelerator pedal or the deceleration by the brake pedal is not started immediately after the pedal is depressed from the depression start position P1, but the pedal is depressed to reach the default drive start position P3. Until then, the pedal operation is not reflected in the behavior of the vehicle. Pedal play refers to such play. Further, the magnitude H of the pedal opening degree from the depression start position P1 to the drive start position P3 is hereinafter referred to as a pedal play amount.
ペダル遊び量は、ドライブロボットを制御し車両を走行させる際に、ペダル操作値の絶対量に大きく影響する。
例えば、ペダル遊び量が実車両よりも小さな値として設定された車両モデルを用いて学習された操作推論学習モデルが、ブレーキペダルを、車両モデル上での駆動開始位置P3を僅かに超えて踏み込むような操作を推論した場合を考える。このような場合において、推論された操作は、ペダル遊び量が車両モデルよりも大きい実車両においては、駆動開始位置P3に届かない操作となり得る。すなわち、操作推論学習モデルはブレーキペダルを軽く踏み込む操作を推論したつもりであっても、当該操作によっては、車両の駆動開始位置P3よりも深くブレーキペダルを踏み込むことができず、実際にはブレーキが効かないという状況が生じ得る。
The amount of pedal play greatly affects the absolute amount of pedal operation value when the drive robot is controlled to drive the vehicle.
For example, an operation inference learning model learned using a vehicle model in which the pedal play amount is set to a value smaller than that of the actual vehicle is such that the brake pedal is depressed slightly beyond the drive start position P3 on the vehicle model. Consider the case of inferring various operations. In such a case, the inferred operation may be an operation that does not reach the drive start position P3 in an actual vehicle in which the pedal play amount is larger than that of the vehicle model. That is, even if the operation reasoning learning model intends to infer the operation of lightly depressing the brake pedal, depending on the operation, the brake pedal cannot be depressed deeper than the driving start position P3 of the vehicle, and the brake is actually applied. There can be situations where it doesn't work.
上記のような、実車両と車両モデルのペダル遊び量の差異が発覚した後に、車両モデルをペダル遊び量が適切となるように再度学習することも考えられるが、これは多くの計算時間を要し、容易に実行され得るものではない。 After discovering the difference in pedal play amount between the actual vehicle and the vehicle model as described above, it is conceivable to relearn the vehicle model so that the pedal play amount is appropriate, but this requires a lot of calculation time. However, it cannot be easily implemented.
本発明が解決しようとする課題は、車両モデルを操作実行の対象として操作推論学習モデルを機械学習するに際し、車両モデルと実車両とのペダル遊び量の差異に起因する操作推論学習モデルの学習精度の低下を、容易に抑制可能な、自動操縦ロボット(ドライブロボット)を制御する操作推論学習モデルの学習システム及び学習方法を提供することである。 The problem to be solved by the present invention is the learning accuracy of the operation inference learning model due to the difference in the pedal play amount between the vehicle model and the actual vehicle when the operation inference learning model is machine-learned with the vehicle model as the operation execution target. It is an object of the present invention to provide a learning system and a learning method of an operation inference learning model for controlling an automatic control robot (drive robot), which can easily suppress a decrease in the number of.
本発明は、上記課題を解決するため、以下の手段を採用する。すなわち、本発明は、車速を含む車両の走行状態を基に、前記車両を規定された指令車速に従って走行させるような、前記車両の操作を推論する操作推論学習モデルと、前記車両に搭載されて、前記操作を基に当該車両を走行させる自動操縦ロボットを備え、前記操作推論学習モデルを機械学習する、自動操縦ロボットを制御する操作推論学習モデルの学習システムであって、前記操作は、アクセルペダルとブレーキペダルのいずれか一方または双方のペダルの、ペダル操作量を含み、前記車両を模擬動作するように設定され、前記ペダルのペダル検出量を含む、前記車両を模した模擬走行状態を出力する、車両モデルと、前記車両のペダル遊び量と、前記車両モデルのペダル遊び量の差分値を基に、前記操作推論学習モデルが推論した前記操作を基にした入力操作に含まれる前記ペダル操作量を前記車両モデルにあわせて調整し、調整された前記入力操作を前記車両モデルへ入力する、第1ペダル遊び量調整部と、前記差分値の正負を反転させた反転差分値を基に、前記模擬走行状態に含まれる前記ペダル検出量を前記車両にあわせて調整し、調整された前記模擬走行状態を生成する、第2ペダル遊び量調整部と、を備え、前記調整された前記模擬走行状態を前記操作推論学習モデルに適用することで、前記操作推論学習モデルを機械学習する、自動操縦ロボットを制御する操作推論学習モデルの学習システムを提供する。 The present invention employs the following means in order to solve the above problems. That is, the present invention is mounted on the vehicle and an operation inference learning model that infers the operation of the vehicle so that the vehicle travels according to a specified command vehicle speed based on the traveling state of the vehicle including the vehicle speed. A learning system for an operation inference learning model that controls an automatic control robot, comprising an automatic control robot that runs the vehicle based on the operation, and machine-learning the operation inference learning model. The operation is an accelerator pedal. The vehicle is set to perform a simulated operation including the pedal operation amount of one or both of the pedals and the brake pedal, and a simulated running state imitating the vehicle including the pedal detection amount of the pedal is output. , The pedal operation amount included in the input operation based on the operation inferred by the operation inference learning model based on the difference value between the vehicle model, the pedal play amount of the vehicle, and the pedal play amount of the vehicle model. Is adjusted according to the vehicle model, and the adjusted input operation is input to the vehicle model. The adjusted simulated running state is provided with a second pedal play amount adjusting unit that adjusts the pedal detection amount included in the simulated running state according to the vehicle and generates the adjusted simulated running state. Is applied to the operation inference learning model to provide a learning system for an operation inference learning model that controls an automatic control robot by machine learning the operation inference learning model.
また、本発明は、車速を含む車両の走行状態を基に、前記車両を規定された指令車速に従って走行させるような、前記車両の操作を推論する操作推論学習モデルと、前記車両に搭載されて、前記操作を基に当該車両を走行させる自動操縦ロボットに関し、前記操作推論学習モデルを機械学習する、自動操縦ロボットを制御する操作推論学習モデルの学習方法であって、前記操作は、アクセルペダルとブレーキペダルのいずれか一方または双方のペダルの、ペダル操作量を含み、前記車両を模擬動作するように設定され、前記ペダルのペダル検出量を含む、前記車両を模した模擬走行状態を出力する車両モデルにあわせて、前記車両のペダル遊び量と、前記車両モデルのペダル遊び量の差分値を基に、前記操作推論モデルが推論した前記操作を基にした入力操作に含まれる前記ペダル操作量を調整し、調整された前記入力操作を前記車両モデルへ入力し、前記差分値の正負を反転させた反転差分値を基に、前記模擬走行状態に含まれる前記ペダル検出量を前記車両にあわせて調整し、調整された前記模擬走行状態を生成し、前記調整された前記模擬走行状態を前記操作推論学習モデルに適用することで、前記操作推論学習モデルを機械学習する、自動操縦ロボットを制御する操作推論学習モデルの学習方法を提供する。 Further, the present invention is mounted on the vehicle and an operation inference learning model for inferring the operation of the vehicle so as to drive the vehicle in accordance with a specified command vehicle speed based on the traveling state of the vehicle including the vehicle speed. A learning method of an operation inference learning model for controlling an automatic control robot, which machine-learns the operation inference learning model with respect to an automatic control robot that runs the vehicle based on the operation, wherein the operation is an accelerator pedal. A vehicle that includes the pedal operation amount of one or both of the brake pedals, is set to simulate the vehicle, and outputs a simulated running state that imitates the vehicle, including the pedal detection amount of the pedal. According to the model, the pedal operation amount included in the input operation based on the operation inferred by the operation inference model is calculated based on the difference value between the pedal play amount of the vehicle and the pedal play amount of the vehicle model. The adjusted and adjusted input operation is input to the vehicle model, and the pedal detection amount included in the simulated running state is adjusted to the vehicle based on the inverted difference value obtained by reversing the positive and negative of the difference value. By adjusting and generating the adjusted simulated running state and applying the adjusted simulated running state to the operation inference learning model, an automatic control robot that machine-learns the operation inference learning model is controlled. A learning method of an operation inference learning model is provided.
本発明によれば、車両モデルを操作実行の対象として操作推論学習モデルを機械学習するに際し、車両モデルと実車両とのペダル遊び量の差異に起因する操作推論学習モデルの学習精度の低下を、容易に抑制可能な、自動操縦ロボット(ドライブロボット)を制御する操作推論学習モデルの学習システム及び学習方法を提供することができる。 According to the present invention, when the operation inference learning model is machine-learned with the vehicle model as the target of operation execution, the learning accuracy of the operation inference learning model is reduced due to the difference in the amount of pedal play between the vehicle model and the actual vehicle. It is possible to provide a learning system and a learning method of an operation inference learning model that controls an automatic control robot (drive robot) that can be easily suppressed.
以下、本発明の実施形態について図面を参照して詳細に説明する。
本実施形態においては、自動操縦ロボットとしては、ドライブロボット(登録商標)を用いているため、以下、自動操縦ロボットをドライブロボットと記載する。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
In the present embodiment, since the drive robot (registered trademark) is used as the autopilot robot, the autopilot robot will be referred to as a drive robot below.
図1は、実施形態におけるドライブロボットを用いた試験環境の説明図である。試験装置1は、車両2、シャシーダイナモメータ3、及びドライブロボット4を備えている。
車両2は、床面上に設けられている。シャシーダイナモメータ3は、床面の下方に設けられている。車両2は、車両2の駆動輪2aがシャシーダイナモメータ3の上に載置されるように、位置づけられている。車両2が走行し駆動輪2aが回転する際には、シャシーダイナモメータ3が反対の方向に回転する。
ドライブロボット4は、車両2の運転席2bに搭載されて、車両2を走行させる。ドライブロボット4は、第1アクチュエータ4cと第2アクチュエータ4dを備えており、これらはそれぞれ、車両2のアクセルペダル2cとブレーキペダル2dに当接するように設けられている。
FIG. 1 is an explanatory diagram of a test environment using a drive robot in the embodiment. The
The
The
ドライブロボット4は、後に詳説する学習制御装置11によって制御されている。学習制御装置11は、ドライブロボット4の第1アクチュエータ4cと第2アクチュエータ4dを制御することにより、車両2のアクセルペダル2cとブレーキペダル2dの開度を変更、調整する。
学習制御装置11は、ドライブロボット4を、車両2が規定された指令車速に従って走行するように制御する。すなわち、学習制御装置11は、車両2のアクセルペダル2cとブレーキペダル2dの開度を変更することで、規定された走行パターン(モード)に従うように、車両2を走行制御する。より詳細には、学習制御装置11は、走行開始から時間が経過するに従い、各時間に到達すべき車速である指令車速に従うように、車両2を走行制御する。
The
The
学習システム10は、上記のような試験装置1と学習制御装置11を備えている。
学習制御装置11は、ドライブロボット制御部20と学習部30を備えている。
ドライブロボット制御部20は、ドライブロボット4の制御を行うための制御信号を生成し、ドライブロボット4に送信することで、ドライブロボット4を制御する。学習部30は、後に説明するような機械学習を行い、車両学習モデル、操作推論学習モデル、及び価値推論学習モデルを生成する。上記のような、ドライブロボット4の制御を行うための制御信号は、操作推論学習モデルにより生成される。
ドライブロボット制御部20は、例えば、ドライブロボット4の筐体外部に設けられた、コントローラ等の情報処理装置である。学習部30は、例えばパーソナルコンピュータ等の情報処理装置である。
The
The
The drive
The drive
図2は、学習システム10のブロック図である。図2においては、各構成要素を結ぶ線は、上記車両学習モデルを機械学習する際にデータの送受信があるもののみが示されており、したがって構成要素間の全てのデータの送受信を示すものではない。
試験装置1は、既に説明したような車両2、シャシーダイナモメータ3、及びドライブロボット4に加え、車両状態計測部5を備えている。車両状態計測部5は、車両2の状態を計測する各種の計測装置である。車両状態計測部5としては、例えばアクセルペダル2cやブレーキペダル2dの操作量を計測するためのカメラや赤外線センサなどであり得る。
FIG. 2 is a block diagram of the
The
ドライブロボット制御部20は、ペダル操作パターン生成部21、車両操作制御部22、及び駆動状態取得部23を備えている。学習部30は、指令車速生成部31、推論データ成形部32、学習データ成形部33、学習データ生成部34、学習データ記憶部35、強化学習部40、及び試験装置モデル50を備えている。強化学習部40は、操作内容推論部41、状態行動価値推論部42、及び報酬計算部43を備えている。試験装置モデル50は、ドライブロボットモデル51、車両モデル52、シャシーダイナモメータモデル53、第1ペダル遊び量調整部54、及び第2ペダル遊び量調整部55を備えている。
学習制御装置11の、学習データ記憶部35以外の各構成要素は、例えば上記の各情報処理装置内のCPUにより実行されるソフトウェア、プログラムであってよい。また、学習データ記憶部35は、上記各情報処理装置内外に設けられた半導体メモリや磁気ディスクなどの記憶装置により実現されていてよい。
The drive
Each component of the
後に説明するように、操作内容推論部41は、ある時刻における走行状態を基に、指令車速に従うような、当該時刻よりも後の車両2の操作を推論する。この、車両2の操作の推論を効果的に行うために、特に操作内容推論部41は、後に説明するように機械学習器を備えており、推論した操作に基づいたドライブロボット4の操作の後の時刻における走行状態に基づいて計算された報酬を基に機械学習器を機械学習して学習モデル(操作推論学習モデル)70を生成する。操作内容推論部41は、性能測定のために実際に車両2を走行制御させる際には、この学習が完了した操作推論学習モデル70を使用して、車両2の操作を推論する。
すなわち、学習システム10は大別して、強化学習時における操作の学習と、性能測定のために車両を走行制御させる際における操作の推論の、2通りの動作を行う。説明を簡単にするために、以下ではまず、操作の学習時における、学習システム10の各構成要素の説明をした後に、車両の性能測定に際して操作を推論する場合での各構成要素の挙動について説明する。
As will be described later, the operation
That is, the
まず、操作の学習時における、学習制御装置11の構成要素の挙動を説明する。
学習制御装置11は、操作の学習に先立ち、学習時に使用する走行実績データ(走行実績)を、走行実績として収集する。詳細には、ドライブロボット制御部20が、アクセルペダル2c及びブレーキペダル2dの、車両特性計測用の操作パターンを生成して、これにより車両2を走行制御し、走行実績データを収集する。
ペダル操作パターン生成部21は、ペダル2c、2dの、車両特性計測用の操作パターンを生成する。ペダル操作パターンとしては、例えば車両2と類似する他の車両において、WLTC(Worldwide harmonized Light vehicles Test Cycle)モードなどによって走行した際のペダル操作の実績値を使用することができる。
ペダル操作パターン生成部21は、生成したペダル操作パターンを、車両操作制御部22へ送信する。
First, the behavior of the components of the
The
The pedal operation
The pedal operation
車両操作制御部22は、ペダル操作パターン生成部21から、ペダル操作パターンを受信し、これを、ドライブロボット4の第1及び第2アクチュエータ4c、4dへの指令に変換して、ドライブロボット4に送信する。
ドライブロボット4は、アクチュエータ4c、4dへの指令を受信すると、これに基づいて車両2をシャシーダイナモメータ3上で走行させる。
駆動状態取得部23は、例えばアクチュエータ4c、4dの位置等の、ドライブロボット4の実際の駆動状態を取得する。車両2が走行することにより、車両2の走行状態は逐次変化する。駆動状態取得部23と、車両状態計測部5、及びシャシーダイナモメータ3に設けられた様々な計測器により、車両2の走行状態が計測される。例えば、駆動状態取得部23は上記のように、アクセルペダル2cの検出量と、ブレーキペダル2dの検出量を、走行状態として計測する。また、シャシーダイナモメータ3に設けられた計測器は、車速を走行状態として計測する。
計測された車両2の走行状態は、学習部30の学習データ成形部33へ送信される。
学習データ成形部33は、車両2の走行状態を受信し、受信したデータを後の様々な学習において使用されるフォーマットに変換して、走行実績データとして学習データ記憶部35に保存する。
The vehicle
When the
The drive state acquisition unit 23 acquires the actual drive state of the
The measured running state of the
The learning
車両2の走行状態すなわち走行実績データの収集が終了すると、学習データ生成部34は学習データ記憶部35から走行実績データを取得し、適切なフォーマットに成形して、試験装置モデル50に送信する。
学習部30の、試験装置モデル50の車両モデル52は、学習データ生成部34から成形された走行実績データを取得し、これを用いて機械学習器60を機械学習して、車両学習モデル60を生成する。車両学習モデル60は、車両2の実際の走行実績である走行実績データを基に車両2を模擬動作するように設定、本実施形態においては機械学習され、車両2に対する操作を受信すると、これを基に、車両2を模した模擬走行状態を出力する。すなわち、車両モデル52の機械学習器60は、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される、適切な学習パラメータが学習された学習済みモデル60を生成するものである。
本実施形態においては、車両学習モデル60は、ニューラルネットワークで実現されている。
以下、説明を簡単にするため、車両モデル52が備えている機械学習器と、これが学習されて生成される学習モデルをともに、車両学習モデル60と呼称する。
When the traveling state of the
The
In this embodiment, the
Hereinafter, for the sake of simplicity, both the machine learning device included in the
図3は、車両学習モデル60のブロック図である。本実施形態においては、車両学習モデル60は、中間層を3層とした全5層の全結合型のニューラルネットワークにより実現されている。車両学習モデル60は、入力層61、中間層62、及び出力層63を備えている。図3においては、各層が矩形として描かれており、各層に含まれるノードは省略されている。
FIG. 3 is a block diagram of the
本実施形態においては、車両学習モデル60の入力は、任意の基準時刻を基点として、走行実績データ内の所定の第1時間だけ過去から基準時刻までの間の、車速の系列を含む。また、本実施形態においては、車両学習モデル60の入力は、基準時刻から所定の第2時間だけ将来の時刻までの間の、アクセルペダル2cの操作量の系列、及びブレーキペダル2dの操作量の系列を含む。これらアクセルペダル2cの操作量の系列、及びブレーキペダル2dの操作量の系列は、実際には、学習データ記憶部35に保存された走行実績データ内の、基準時刻以降のアクセルペダル2cの検出量と、ブレーキペダル2dの検出量であり、これらが基準時刻において車両2に対して適用される操作として、車両学習モデル60に入力される。
入力層61は、上記のような車速の系列である車速系列i1、アクセルペダル2cの操作量の系列であるモデル入力アクセルペダル操作量系列im2、及びブレーキペダル2dの操作量の系列であるモデル入力ブレーキペダル操作量系列im3の各々に対応する入力ノードを備えている。
上記のように、各入力i1、im2、im3は系列であり、それぞれ、複数の値により実現されている。例えば、図3においては、一つの矩形として示されている、車速系列i1に対応する入力は、実際には、車速系列i1の複数の値の各々に対応するように、入力ノードが設けられている。
車両モデル52は、各入力ノードに、対応する走行実績データの値を格納する。
In the present embodiment, the input of the
The
As described above, each of the inputs i1, im2, and im3 is a series, and each is realized by a plurality of values. For example, in FIG. 3, the input corresponding to the vehicle speed series i1 shown as one rectangle is actually provided with an input node so as to correspond to each of a plurality of values of the vehicle speed series i1. There is.
The
中間層62は、第1中間層62a、第2中間層62b、及び第3中間層62cを備えている。
中間層62の各ノードにおいては、前段の層(例えば、第1中間層62aの場合は入力層61、第2中間層62bの場合は第1中間層62a)の各ノードから、この前段の層の各ノードに格納された値と、前段の層の各ノードから当該中間層62のノードへの重みを基にした演算がなされて、当該中間層62のノード内に演算結果が格納される。
出力層63においても、中間層62の各々と同様な演算が行われ、出力層63に備えられた各出力ノードに演算結果が格納される。
本実施形態においては、車両学習モデル60の出力は、基準時刻から所定の第3時間だけ将来の時刻(後の時刻)までの間の、推定された車速の系列である推定車速系列o1と、アクセルペダル2cの検出量の系列であるモデル出力アクセルペダル検出量系列om2、及びブレーキペダル2dの検出量の系列であるモデル出力ブレーキペダル検出量系列om3を含む、模擬走行状態omである。この、図3においては、一つの矩形として示されている模擬走行状態omの各々は、実際には、上記の複数の値の各々に対応するように、出力ノードが設けられている。
The
In each node of the
In the output layer 63, the same calculation as in each of the
In the present embodiment, the output of the
車両学習モデル60においては、上記のように基準時刻の走行実績が入力されて、後の時刻の、車両2の走行を模した模擬走行状態omを出力することができるように学習がなされる。
より詳細には、車両モデル52は、別途学習データ記憶部35から学習データ生成部34を介して送信された、基準時刻から第3時間だけ将来の時刻までの間の走行実績を、教師データとして受信する。車両モデル52は、教師データと、車両学習モデル60が出力した模擬走行状態omの平均二乗誤差が小さくなるように、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値を、誤差逆伝搬法、確率的勾配降下法により調整する。
車両モデル52は、車両学習モデル60の学習を繰り返しつつ、教師データと模擬走行状態omの最小二乗誤差を都度計算し、これが所定の値よりも小さければ、車両学習モデル60の学習を終了する。
In the
More specifically, the
The
車両学習モデル60の学習が終了すると、学習システム10の強化学習部40は、操作内容推論部41に設けられた、車両2の操作を推論する操作推論学習モデル70を事前学習する。図4は、事前学習時のデータの送受信関係が示された学習システム10のブロック図である。本実施形態においては、操作推論学習モデル70は、強化学習により機械学習される。すなわち、操作推論学習モデル70は、機械学習器が学習されることにより、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される、適切な学習パラメータが学習された学習済みモデルとなる。
学習システム10は、既に学習が終了した車両学習モデル60が出力した模擬走行状態を操作推論学習モデル70に適用することで、操作推論学習モデル70を事前に強化学習する。後に説明するように、操作推論学習モデル70の強化学習が進行して事前の強化学習が終了した後に、操作推論学習モデル70の出力した操作を基に実際に車両2を走行させて取得された走行状態を操作推論学習モデル70に適用することで、操作推論学習モデル70を更に強化学習する。このように、学習システム10は、操作推論学習モデル70の学習段階に応じて、推論した操作の実行対象及び走行状態の取得対象を、車両学習モデル60から実車両2へと変更する。
When the learning of the
The
後に説明するように、操作内容推論部41は、学習が中途段階の操作推論学習モデル70によって、現時点から第3時間だけ将来の時刻までの間の車両2の操作を出力し、これをドライブロボットモデル51に送信する。本実施形態において、操作内容推論部41は、特にアクセルペダル2c及びブレーキペダル2dの操作の系列、すなわちペダル操作量を出力する。
車両学習モデル60の学習により、試験装置モデル50は、全体として試験装置1の各々を模擬動作するように構成されている。試験装置モデル50は、操作の系列を受信する。
As will be described later, the operation
By learning the
ドライブロボットモデル51は、ドライブロボット4を模擬動作するように構成されている。ドライブロボットモデル51は、操作内容推論部41から受信した、操作推論学習モデル70が推論した操作を基に、操作系の表現を車両2に対する実際のペダル操作量の値へと変換して、入力操作を生成する。より詳細には、ドライブロボットモデル51は、入力操作としてペダル操作量の系列であるアクセルペダル操作量系列i2とブレーキペダル操作量系列i3を生成し、第1ペダル遊び量調整部54に送信する。
シャシーダイナモメータモデル53は、シャシーダイナモメータ3を模擬動作するように構成されている。シャシーダイナモメータ3は、模擬走行中の車両学習モデル60の車速を検出しつつ、これを内部に随時記録している。シャシーダイナモメータモデル53は、この過去の車速の記録から車速系列i1を生成し、第1ペダル遊び量調整部54に送信する。
The
The
第1ペダル遊び量調整部54は、後に詳細に説明するように、ドライブロボットモデル51から受信した入力操作、すなわちアクセルペダル操作量系列i2、ブレーキペダル操作量系列i3に含まれるペダル操作量を調整し、車両モデル52に入力されるモデル入力アクセルペダル操作量系列(調整された入力操作)im2、モデル入力ブレーキペダル操作量系列(調整された入力操作)im3を生成して、シャシーダイナモメータモデル53から受信した車速系列i1とともに、車両モデル52に送信する。
車両モデル52は、車速系列i1と、モデル入力アクセルペダル操作量系列im2、及びモデル入力ブレーキペダル操作量系列im3を受信して、これらを車両学習モデル60に入力する。車両学習モデル60が模擬走行状態omを出力すると、車両モデル52は模擬走行状態omをシャシーダイナモメータモデル53と第2ペダル遊び量調整部55に送信する。
第2ペダル遊び量調整部55は、後に詳細に説明するように、模擬走行状態omのモデル出力アクセルペダル検出量系列om2、及びモデル出力ブレーキペダル検出量系列om3に含まれるペダル検出量を調整して、アクセルペダル検出量系列o2、ブレーキペダル検出量系列o3を生成する。
シャシーダイナモメータモデル53は、模擬走行状態omに含まれる車速を検出して内部の状態を更新する。
第2ペダル遊び量調整部55によって調整された、アクセルペダル検出量系列o2、ブレーキペダル検出量系列o3と、シャシーダイナモメータモデル53において保持される車速系列は、調整された模擬走行状態oとして、推論データ成形部32と強化学習部40に送信される。
The first pedal play
The
The second pedal play
The
The accelerator pedal detection amount series o2, the brake pedal detection amount series o3, and the vehicle speed series held in the
指令車速生成部31は、モードに関する情報に基づいて生成された、指令車速を保持している。指令車速生成部31は、現時点から所定の第4時間だけ将来の時刻までの間に、車両学習モデル60が従うべき指令車速の系列を生成し、推論データ成形部32に送信する。
推論データ成形部32は、調整された模擬走行状態oと指令車速系列を受信し、適切に成形した後に強化学習部40に送信する。
強化学習部40は、これらの調整された模擬走行状態oと、指令車速系列を、走行状態として操作内容推論部41に送信する。
The command vehicle
The inference
The
操作内容推論部41は、ある時刻において走行状態を受信すると、これを基に、学習中の操作推論学習モデル70により、当該時刻より後の操作の系列を推論する。
本実施形態においては、操作推論学習モデル70は、走行状態の各々に対応する入力ノードを備えた入力層と、複数の中間層、及び複数の出力ノードを有する出力層を備えた、ニューラルネットワークである。
入力ノードの各々に、対応する走行状態の値が入力されると、重みを基にした演算がなされて、入力ノードの次の段として設けられた中間層の、中間ノードの各々に、演算結果が格納される。このような演算と、次の段の中間ノードへの演算結果の格納が、各中間層に対して順次実行される。最終的には、最終段の中間層内の中間ノードに格納された演算結果を基に、同様な演算がなされ、その結果が出力ノードに格納される。
操作推論学習モデル70の出力ノードの各々は、操作の各々に対応するように設けられている。本実施形態においては、操作の対象は、アクセルペダル2cとブレーキペダル2dであり、これに対応して、操作推論学習モデル70は、操作として、例えばアクセルペダル操作の系列とブレーキペダル操作の系列を推論する。
When the operation
In the present embodiment, the operation
When the corresponding running state value is input to each of the input nodes, an operation based on the weight is performed, and the operation result is performed for each of the intermediate nodes of the intermediate layer provided as the next stage of the input node. Is stored. Such an operation and storage of the operation result in the intermediate node of the next stage are sequentially executed for each intermediate layer. Finally, the same operation is performed based on the operation result stored in the intermediate node in the intermediate layer of the final stage, and the result is stored in the output node.
Each of the output nodes of the operation
操作内容推論部41は、このようにして生成されたアクセルペダル操作とブレーキペダル操作をドライブロボットモデル51に送信する。ドライブロボットモデル51は、これを基に入力操作となるアクセルペダル操作量系列i2とブレーキペダル操作量系列i3を生成して第1ペダル遊び量調整部54に送信する。第1ペダル遊び量調整部54は入力操作を調整してモデル入力アクセルペダル操作量系列im2、モデル入力ブレーキペダル操作量系列im3を生成し、車両学習モデル60に送信する。車両学習モデル60は、これらを受信して、次の模擬走行状態omを推論する。第2ペダル遊び量調整部55は模擬走行状態omから調整された模擬走行状態oを生成する。このようにして、次の走行状態が生成される。
操作推論学習モデル70の学習、すなわち誤差逆伝搬法、確率的勾配降下法によるニューラルネットワークを構成する各パラメータの値の調整は、現段階においては行われず、操作推論学習モデル70は操作を推論するのみである。操作推論学習モデル70の学習は、後に、価値推論学習モデル80の学習に伴って行われる。
The operation
The learning of the operation
報酬計算部43は、走行状態と、これに対応して操作推論学習モデル70により推論された操作、及び当該操作を基に新たに生成された走行状態を基に、適切に設計された式により報酬を計算する。報酬は、操作、及びこれに伴う新たに生成された走行状態が望ましくないほど小さい値を、望ましいほど大きい値を、有するように設計されている。後述する状態行動価値推論部42は、行動価値を、報酬が大きいほどこれが高くするように計算し、操作推論学習モデル70はこの行動価値が高くなるような操作を出力するように、強化学習が行われる。
報酬計算部43は、走行状態、これに対応して推論された操作、当該操作を基に新たに生成された走行状態、及び計算した報酬を、学習データ成形部33に送信する。学習データ成形部33は、これらを適切に成形して学習データ記憶部35に保存する。これらのデータは、後述する価値推論学習モデル80の学習に使用される。
このようにして、操作内容推論部41による操作の推論と、この操作に対応した、車両モデル52による模擬走行状態omの推論、及び報酬の計算が、価値推論学習モデル80の学習に十分なデータが蓄積されるまで、繰り返し行われる。
The
The
In this way, the inference of the operation by the operation
学習データ記憶部35に、価値推論学習モデル80の学習に十分な量の走行データが蓄積されると、状態行動価値推論部42は価値推論学習モデル80を学習する。価値推論学習モデル80は、機械学習器が学習されることにより、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される、適切な学習パラメータが学習された学習済みモデルとなる。
強化学習部40は全体として、操作推論学習モデル70が推論した操作がどの程度適切であったかを示す行動価値を計算し、操作推論学習モデル70が、この行動価値が高くなるような操作を出力するように、強化学習を行う。行動価値は、走行状態と、これに対する操作を引数として、報酬が大きいほど行動価値を高くするように設計された関数として表わされる。本実施形態においては、この関数の計算を、走行状態と操作を入力として、行動価値を出力するように設計された、関数近似器としての学習モデル80により行う。
When a sufficient amount of running data for learning the value
As a whole, the
操作学習データ生成部34は、学習データ記憶部35内の学習データを成形して、状態行動価値推論部42へ送信する。
状態行動価値推論部42は、成形された学習データを受信し、価値推論学習モデル80を機械学習させる。
本実施形態においては、価値推論学習モデル80は、走行状態と操作の各々に対応する入力ノードを備えた入力層と、複数の中間層、及び行動価値に対応する出力ノードを備えた、ニューラルネットワークである。価値推論学習モデル80は、操作推論学習モデル70と同様な構造のニューラルネットワークにより実現されているため、構造上の詳細な説明を割愛する。
The operation learning
The state-behavioral
In the present embodiment, the value
状態行動価値推論部42は、TD(Temporal Difference)誤差、すなわち、操作を実行する前の行動価値と、操作を実行した後の行動価値の誤差を小さくして、行動価値として適切な値が出力されるように、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値を、誤差逆伝搬法、確率的勾配降下法により調整する。このように、現状の操作推論学習モデル70によって推論された操作を適切に評価できるように、価値推論学習モデル80を学習させる。
価値推論学習モデル80の学習が進むと、価値推論学習モデル80は、より適切な行動価値の値を出力するようになる。すなわち、価値推論学習モデル80が出力する行動価値の値が学習前とは変わるため、これに伴い、行動価値が高くなるような操作を出力するように設計された操作推論学習モデル70を更新する必要がある。このため、操作内容推論部41は操作推論学習モデル70を学習する。
具体的には、操作内容推論部41は、例えば行動価値の負値を損失関数とし、これをできるだけ小さくするような、すなわち行動価値が大きくなるような操作を出力するように、重みやバイアスの値等、ニューラルネットワークを構成する各パラメータの値を、誤差逆伝搬法、確率的勾配降下法により調整して、操作推論学習モデル70を学習させる。
操作推論学習モデル70が学習され更新されると、出力される操作が変化するため、再度走行データを蓄積し、これを基に価値推論学習モデル80を学習する。
このように、学習部30は、操作推論学習モデル70と価値推論学習モデル80の学習を繰り返すことにより、これら学習モデル70、80を強化学習する。
The state action
As the learning of the value
Specifically, the operation
When the operation
In this way, the
学習部30は、この事前学習としての、車両学習モデル60を操作の実行対象として用いた強化学習を、事前学習終了基準を満たすまで実行する。
The
次に、上記のような車両学習モデル60を用いた操作推論学習モデル70の事前学習における、第1ペダル遊び量調整部54と第2ペダル遊び量調整部55の挙動を説明する。
操作推論学習モデル70が精度よく学習されるためには、車両モデル52内の車両学習モデル60において、車両2の再現精度を高める必要がある。この際に特に重要となるのは、車両2のアクセルペダル2cとブレーキペダル2dのペダル遊び量を、車両モデル52においても正確に再現することである。
しかし、例えば車両学習モデル60の学習時に学習データとして使用する走行実績データを収集する際に、アクセルペダル2cやブレーキペダル2dのペダル操作量を検出する計器の設置に問題があることがある。例えばこのような、ペダル遊び量が実際とは異なる状況下で走行実績データが収集された場合には、車両モデル52のペダル遊び量は、車両2の本来のペダル遊び量とは異なる値となる。
あるいは、ドライブロボット4を車両2に設置しなおした際に、ドライブロボット4を以前とは異なる位置に設置した場合や、ペダルのキャリブレーションを行った場合においては、同一の車両2においてもペダル遊び量が変動し得る。
このような場合において、第1ペダル遊び量調整部54と第2ペダル遊び量調整部55は、車両2と車両モデル52の間のペダル遊び量を調整する。
Next, the behaviors of the first pedal play
In order for the operation
However, for example, when collecting travel record data to be used as learning data when learning the
Alternatively, when the
In such a case, the first pedal play
図5は、第1及び第2ペダル遊び量調整部54、55の説明図である。
後に説明するように、操作推論学習モデル70が推論した操作は、車両操作制御部22を介してドライブロボット4に送信され、車両2を操作するために使用される。したがって、操作推論学習モデル70が出力する操作は、車両2のペダル遊び量が反映されたものとなっている。
このため、第1ペダル遊び量調整部54は、操作推論学習モデル70が推論した操作を基にした入力操作に含まれるペダル操作量を、車両モデル52にあわせて調整して調整された入力操作を生成し、調整された入力操作を車両モデル52に入力する。
FIG. 5 is an explanatory diagram of the first and second pedal play
As will be described later, the operation inferred by the operation
Therefore, the first pedal play
より詳細には、第1ペダル遊び量調整部54は、操作推論学習モデル70が推論した操作を基にしてドライブロボットモデル51が生成した入力操作、すなわちアクセルペダル操作量系列i2、ブレーキペダル操作量系列i3を受信する。
車両2のペダル遊び量をdr、車両モデル52のペダル遊び量をdvとしたときに、ペダル遊び量差(差分値)はddiff=dr−dvと定義される。第1ペダル遊び量調整部54は、アクセルペダル操作量系列i2とブレーキペダル操作量系列i3、すなわち入力操作に含まれるペダル操作量ar−iを、次の式1により車両モデル52にあわせて調整し、調整されたペダル操作量av−iを生成する。
Pedal play amount d r of the
このように、第1ペダル遊び量調整部54は、車両2のペダル遊び量drと、車両モデル52のペダル遊び量dvの差分値であるペダル遊び量差ddiffを基に、入力操作であるアクセルペダル操作量系列i2、ブレーキペダル操作量系列i3に含まれるペダル操作量ar−iを、ペダル操作量ar−iから差分値を減算することで、車両モデル52にあわせて調整する。これにより、第1ペダル遊び量調整部54は、調整された入力操作、すなわちモデル入力アクセルペダル操作量系列im2、モデル入力ブレーキペダル操作量系列im3を生成する。
上記の式1の、関数fに渡される値ar−i−ddiffは、(ar−i−dr)+dvと変形できる。(ar−i−dr)の値は、車両2においてペダルを操作したときに、ペダルの駆動開始位置を超えてペダルが踏み込まれる量である。式1のav−iの値は、これに車両モデル52のペダル遊び量dvが加算された値であり、駆動開始位置を超えて踏み込まれる量に車両モデル52のペダル遊び量dvが反映された値となっている。
このため、例えば図5に示されるように、アクセルペダル操作量系列i2において車両2のペダル遊び量drよりも上方に位置する範囲R1は、式1によりこれが変換されたモデル入力アクセルペダル操作量系列im2においても、車両モデル52のペダル遊び量dvより上方に位置している。
Thus, the first pedal play
The value a r-i- d diff passed to the function f in the
Thus, for example, as shown in FIG. 5, the range R1 which is located above the pedal play amount d r of the
なお、ペダル遊び量dr、dvは、例えば図5においてアクセルペダル操作量系列i2とブレーキペダル操作量系列i3、モデル入力アクセルペダル操作量系列im2とモデル入力ブレーキペダル操作量系列im3に異なる値として示されているように、アクセルペダル2cとブレーキペダル2dで異なる値を取り得る。
このため、ペダル遊び量差ddiffも、アクセルペダル2cとブレーキペダル2dで異なる値となり得る。
したがって、上記の式1は、アクセルペダル2cとブレーキペダル2dでは実際には異なる式となる。第1ペダル遊び量調整部54は、アクセルペダル2cとブレーキペダル2dの各々の操作量に対して、対応する値が反映された式1を適用する。
これは、第2ペダル遊び量調整部55に関して以下に説明する式3や、後に本実施形態の変形例として説明する式4、式5についても同様である。
Incidentally, the pedal play amount d r, d v, for example the accelerator pedal operation amount sequence i2 and the brake pedal operation amount sequence i3 in FIG. 5, the model input accelerator pedal operation amount sequence im2 and model input different values for the brake pedal operation amount sequence im3 As shown as, the
Therefore, the pedal play amount difference d diff can also have different values between the
Therefore, the
This also applies to the
第2ペダル遊び量調整部55は、モデル入力アクセルペダル操作量系列im2、モデル入力ブレーキペダル操作量系列im3を、車両モデル52に入力する。
車両モデル52は、車両学習モデル60により、模擬走行状態om、すなわちモデル出力アクセルペダル検出量系列om2とモデル出力ブレーキペダル検出量系列om3を推論する。
The second pedal play
The
第2ペダル遊び量調整部55は、模擬走行状態omを受信し、これに含まれるペダル検出量av−oを、次の式3により車両2にあわせて調整し、調整されたペダル検出量ar−oを生成する。
このように、第2ペダル遊び量調整部55は、模擬走行状態omに含まれるペダル検出量av−oを車両2にあわせて調整して、調整された模擬走行状態o、すなわちアクセルペダル検出量系列o2、ブレーキペダル検出量系列o3を生成する。
上記の式3の、関数fに渡される値av−o+ddiffは、(av−o−dv)+drと変形できる。(av−o−dv)の値は、車両モデル52において、ペダルの駆動開始位置を超えてペダルが踏み込まれる量である。式3のar−oの値は、これに車両2のペダル遊び量drが加算された値であり、駆動開始位置を超えて踏み込まれる量に車両2のペダル遊び量drが反映された値となっている。
このため、例えば図5に示されるように、モデル出力アクセルペダル検出量系列om2において車両モデル52のペダル遊び量dvよりも上方に位置する範囲R2は、式3によりこれが変換されたアクセルペダル検出量系列o2においても、車両2のペダル遊び量drより上方に位置している。
Thus, the second pedal play
Of
Thus, for example, as shown in FIG. 5, the range located above the pedal play amount d v of the
上記の式3は、式1とは対称的な演算となっている。
すなわち、式1においては、入力操作に含まれるペダル操作量ar−iからペダル遊び量差(差分値)ddiffを減算する操作となっている。
これに対し、式3においては、模擬走行状態omに含まれるペダル検出量ar−oから、ペダル遊び量差ddiffの正負を反転させた値(反転差分値)である−ddiffの値を減算する操作となっている。
上記のような操作により、第2ペダル遊び量調整部55は、模擬走行状態omに含まれるペダル検出量av−oを、反転差分値を基に、より詳細にはペダル検出量av−oにペダル遊び量差(差分値)ddiffを加算することで、ペダル検出量を車両2にあわせて調整して、調整された模擬走行状態oを生成する。
第2ペダル遊び量調整部55が生成した、調整された模擬走行状態oは、操作推論学習モデル70に適用されることで、操作推論学習モデル70は機械学習される。
The
That is, in
On the other hand, in
The above-described operation, the second pedal play
The adjusted simulated running state o generated by the second pedal play
操作推論学習モデル70及び価値推論学習モデル80の、車両学習モデル60を操作の実行対象として用いた事前学習が終了すると、学習部30は、車両学習モデル60に替えて、実車両2を操作の実行対象として、操作推論学習モデル70及び価値推論学習モデル80を更に強化学習する。図6は、事前学習が終了した後の強化学習時におけるデータの送受信関係が示された学習システム10のブロック図である。
When the pre-learning using the
操作内容推論部41は、現時点から第3時間だけ将来の時刻までの間の車両2の操作を出力し、これを車両操作制御部22に送信する。
車両操作制御部22は、受信した操作を、ドライブロボット4の第1及び第2アクチュエータ4c、4dへの指令に変換して、ドライブロボット4に送信する。
ドライブロボット4は、アクチュエータ4c、4dへの指令を受信すると、これに基づいて車両2をシャシーダイナモメータ3上で走行させる。
シャシーダイナモメータ3と車両状態計測部5は、車両2の車速、アクセルペダル2cとブレーキペダル2dの操作量を検出して各々の系列を生成し、推論データ成形部32に送信する。
指令車速生成部31は、指令車速系列を生成して推論データ成形部32に送信する。
推論データ成形部32は、各系列を受信し、適切に成形した後に走行状態として、強化学習部40に送信する。
The operation
The vehicle
When the
The
The command vehicle
The inference
強化学習部40は、試験装置モデル50により生成される調整された模擬走行状態oの替わりに上記の各系列を用いて、図4を用いて説明した事前学習時と同様に、上記のように実車両2を操作の実行対象として用いて学習データを学習データ記憶部35に蓄積する。強化学習部40は、十分な量の走行データが蓄積されると、価値推論学習モデル80を学習し、その後操作推論学習モデル70を学習する。
学習部30は、学習データの蓄積と、操作推論学習モデル70と価値推論学習モデル80の学習を繰り返すことにより、これら学習モデル70、80を強化学習する。
The
The
学習部30は、車両2を操作の実行対象として用いた強化学習を、学習終了基準を満たすまで実行する。
The
次に、車両2の性能測定に際して操作を推論する場合での、すなわち、操作推論学習モデル70の強化学習が終了した後における、学習システム10の各構成要素の挙動について説明する。
Next, the behavior of each component of the
駆動状態取得部23と、車両状態計測部5、及びシャシーダイナモメータ3に設けられた様々な計測器により、車両2の車速、アクセルペダル2cの検出量、ブレーキペダル2dの検出量等が計測される。これらの値は、推論データ成形部32に送信される。
指令車速生成部31は、指令車速系列を生成して推論データ成形部32に送信する。
推論データ成形部32は、車速、アクセルペダル2cの検出量、ブレーキペダル2dの検出量等と、指令車速系列を受信し、適切に成形した後に走行状態として、強化学習部40に送信する。
操作内容推論部41は、走行状態を受信すると、これを基に、学習済みの操作推論学習モデル70により、車両2の操作を推論する。
操作内容推論部41は、推論した操作を、車両操作制御部22へ送信する。
車両操作制御部22は、操作内容推論部41から操作を受信し、この操作に基づき、ドライブロボット4を操作する。
The vehicle speed of the
The command vehicle
The inference
When the operation
Operation content The
The vehicle
次に、図1〜図6、及び図7を用いて、上記の学習システム10を用いた、ドライブロボット4を制御する操作推論学習モデル70の学習方法を説明する。図7は、学習方法のフローチャートである。
学習制御装置11は、操作の学習に先立ち、学習時に使用する走行実績データ(走行実績)を、走行実績として収集する。詳細には、ドライブロボット制御部20が、アクセルペダル2c及びブレーキペダル2dの、車両特性計測用の操作パターンを生成して、これにより車両2を走行制御し、走行実績データを収集する(ステップS1)。
車両モデル52は、学習データ生成部34から成形された走行実績データを取得し、これを用いて機械学習器60を機械学習して、車両学習モデル60を生成する(ステップS3)。
Next, a learning method of the operation
The
The
車両学習モデル60の学習が終了すると、学習システム10の強化学習部40は、車両2の操作を推論する操作推論学習モデル70を事前学習する(ステップS5)。より詳細には、学習システム10は、既に学習が終了した車両学習モデル60が出力した模擬走行状態を操作推論学習モデル70に適用することで、操作推論学習モデル70を事前に強化学習する。この際には、第1ペダル遊び量調整部54と第2ペダル遊び量調整部55は、式1〜式3を用いて、車両2と車両モデル52の間のペダル遊び量を調整する。
学習部30は、この事前学習としての、車両学習モデル60を操作の実行対象として用いた強化学習を、事前学習終了基準を満たすまで実行する。事前学習終了基準を満たさなければ(ステップS7のNo)、事前学習を継続する。事前学習終了基準が満たされると(ステップS7のYes)、事前学習を終了する。
When the learning of the
The
操作推論学習モデル70及び価値推論学習モデル80の、車両学習モデル60を操作の実行対象として用いた事前学習が終了すると、学習部30は、車両学習モデル60に替えて、実車両2を操作の実行対象として、操作推論学習モデル70及び価値推論学習モデル80を更に強化学習する(ステップS9)。
When the pre-learning using the
次に、上記のドライブロボットを制御する操作推論学習モデルの学習システム及び学習方法の効果について説明する。 Next, the effects of the learning system and learning method of the operation inference learning model that controls the drive robot will be described.
本実施形態の学習システム10は、車速を含む車両2の走行状態を基に、車両2を規定された指令車速に従って走行させるような、車両2の操作を推論する操作推論学習モデル70と、車両2に搭載されて、操作を基に車両2を走行させるドライブロボット(自動操縦ロボット)4を備え、操作推論学習モデル70を機械学習する、ドライブロボット4を制御する操作推論学習モデル70の学習システム10であって、操作は、アクセルペダル2cとブレーキペダル2dの双方のペダル操作量を含み、車両2を模擬動作するように設定され、ペダル2c、2dのペダル検出量av−oを含む、車両2を模した模擬走行状態omを出力する、車両モデル52と、車両2のペダル遊び量drと、車両モデル52のペダル遊び量dvの差分値ddiffを基に、操作推論学習モデル70が推論した操作を基にした入力操作i2、i3に含まれるペダル操作量ar−iを車両モデル52にあわせて調整し、調整された入力操作im2、im3を車両モデル52へ入力する、第1ペダル遊び量調整部54と、差分値ddiffの正負を反転させた反転差分値−ddiffを基に、模擬走行状態omに含まれるペダル検出量av−oを車両2にあわせて調整し、調整された模擬走行状態oを生成する、第2ペダル遊び量調整部55と、を備え、調整された模擬走行状態oを操作推論学習モデル70に適用することで、操作推論学習モデル70を機械学習する。
また、本実施形態の学習制御方法は、車速を含む車両2の走行状態を基に、車両2を規定された指令車速に従って走行させるような、車両2の操作を推論する操作推論学習モデル70と、車両2に搭載されて、操作を基に車両2を走行させるドライブロボット(自動操縦ロボット)4に関し、操作推論学習モデル70を機械学習する、ドライブロボット4を制御する操作推論学習モデル70の学習方法であって、操作は、アクセルペダル2cとブレーキペダル2dの双方のペダル操作量を含み、車両2を模擬動作するように設定され、ペダル2c、2dのペダル検出量av−oを含む、車両2を模した模擬走行状態omを出力する車両モデル52にあわせて、車両2のペダル遊び量drと、車両モデル52のペダル遊び量dvの差分値ddiffを基に、操作推論モデル70が推論した操作を基にした入力操作i2、i3に含まれるペダル操作量ar−iを調整し、調整された入力操作im2、im3を車両モデル52へ入力し、差分値ddiffの正負を反転させた反転差分値−ddiffを基に、模擬走行状態omに含まれるペダル検出量av−oを車両2にあわせて調整し、調整された模擬走行状態oを生成し、調整された模擬走行状態oを操作推論学習モデル70に適用することで、操作推論学習モデル70を機械学習する。
上記のような構成によれば、第1ペダル遊び量調整部54は、車両2のペダル遊び量drと、車両モデル52のペダル遊び量dvの差分値ddiffを基にして、操作推論学習モデル70の推論結果を基にした入力操作i2、i3に含まれるペダル操作量ar−iを車両モデル52にあわせて調整する。このため、車両2と車両モデル52のペダル遊び量dr、dvの差異が適切に反映され、ペダル操作量が適切に調整される。
また、第2ペダル遊び量調整部55は、差分値ddiffの正負を反転させた反転差分値−ddiffを基に、車両モデル52が出力する模擬走行状態omに含まれるペダル検出量av−oを車両2にあわせて調整する。このため、第1ペダル遊び量調整部54における調整とは逆方向の調整が行われて、車両2と車両モデル52のペダル遊び量dr、dvの差異が適切に反映され、ペダル検出量が適切に調整される。
このようにして、車両2と車両モデル52の間のペダル遊び量の差が適切に吸収される。結果として、車両2の操作を推論する操作推論学習モデル70が、車両モデル52を操作の実行対象として機械学習されても、ペダル遊び量の差に起因する、操作推論学習モデル70の学習精度の低下が抑制される。
更に、車両モデル52の入出力部分におけるペダル遊び量の値の変換により、ペダル遊び量の差が吸収されるため、ペダル遊び量に差が生じた場合においても、車両モデル52を再度学習させる必要がなく、学習システム10に要する計算コストが低減される。したがって、操作推論学習モデル70の学習精度の低下の抑制が容易となる。
The
Further, the learning control method of the present embodiment includes an operation
According to the above structure, the first pedal
The second pedal play
In this way, the difference in pedal play amount between the
Further, since the difference in the pedal play amount is absorbed by converting the value of the pedal play amount in the input / output portion of the
また、第1ペダル遊び量調整部54は、入力操作i2、i3に含まれるペダル操作量ar−iを、当該ペダル操作量ar−iから差分値ddiffを減算することで調整して、調整されたペダル操作量av−iを生成し、第2ペダル遊び量調整部55は、模擬走行状態omに含まれるペダル検出量av−oを、当該ペダル検出量av−oに差分値ddiffを加算することで調整して、調整されたペダル検出量ar−oを生成する。
上記のような構成によれば、式1、式3を用いて既に説明したように、車両2と車両モデル52の間のペダル遊び量の差を、効果的に吸収可能である。
Further, the first pedal play
According to the above configuration, as already described using the
また、車両モデル52は、車両2の実際の走行実績を基に車両2を模擬動作するように機械学習され、調整された入力操作im2、im3を基に、模擬走行状態omを出力する、車両学習モデル60を備えている。
特に本実施形態においては、車両学習モデル60は、ニューラルネットワークで実現されている。
上記のような構成によれば、学習システム10を適切に実現可能である。
Further, the
In particular, in the present embodiment, the
According to the above configuration, the
また、操作推論学習モデル70は、強化学習されている。
強化学習により学習される操作推論学習モデル70は、強化学習の初期段階においては、例えばペダル2c、2dを極端に高い頻度で操作するような、人間には不可能で、実車両に負担がかかる、好ましくない操作を出力する可能性がある。
上記のような構成によれば、このような強化学習の初期段階においては、当該車両学習モデル60が、操作推論学習モデル70が推論した操作を基に、車両2を模した走行状態sである模擬走行状態omを出力し、これを操作推論学習モデル70に適用することで、操作推論学習モデル70を事前に強化学習する。すなわち、強化学習の初期段階においては、実車両2を使用せずに、操作推論学習モデル70を強化学習することができる。したがって、実車両2の負担を低減可能である。
また、事前学習が終了すると、実車両2を使用して操作推論学習モデル70を更に強化学習するため、車両学習モデル60のみを使用して操作推論学習モデル70を強化学習する場合に比べると、操作推論学習モデル70により出力する操作の学習精度を向上することができる。
特に、上記のような構成においては、事前学習を、車両学習モデル60を操作の実行対象として行うため、事前学習の全過程において車両2を操作の実行対象とした場合に比べると、学習時間を低減可能である。
Further, the operation
In the initial stage of reinforcement learning, the operation
According to the above configuration, in the initial stage of such reinforcement learning, the
Further, when the pre-learning is completed, the operation
In particular, in the above configuration, since the pre-learning is performed with the
[実施形態の第1変形例]
次に、図8を用いて、上記実施形態として示したドライブロボットを制御する操作推論学習モデルの学習システム及び学習方法の第1変形例を説明する。図8は、本第1変形例における第2ペダル遊び量調整部の動作の説明図である。本第1変形例における学習システムは、上記実施形態の学習システム10とは、第2ペダル遊び量調整部55Aの処理内容が異なっている。
[First Modified Example of Embodiment]
Next, with reference to FIG. 8, a first modification of the learning system and the learning method of the operation inference learning model for controlling the drive robot shown in the above embodiment will be described. FIG. 8 is an explanatory diagram of the operation of the second pedal play amount adjusting unit in the first modification. The learning system in the first modification is different from the
図5の例においては、車両2のペダル遊び量drよりも、車両モデル52のペダル遊び量dvが小さい。このような場合においては、例えば車両モデル52が出力したモデル出力ブレーキペダル検出量系列om3を上記実施形態の第2ペダル遊び量調整部55が変換すると、出力されたブレーキペダル検出量系列o3に、R3として示されるような、調整されたペダル検出量av−oの値が一定の値となる部分が生じ得る。
これは、次のような理由に因る。すなわち、入力操作に含まれるペダル操作量ar−iがペダル遊び量差ddiffよりも小さい場合においては、第1ペダル遊び量調整部54における式1を用いた演算によって、調整されたペダル操作量av−iの値は0となる。このため、これを車両モデル52に適用した後の、模擬走行状態omに含まれるペダル検出量av−oも、0に近い値となる。この、0に近い値に、第2ペダル遊び量調整部55において式3によりペダル遊び量差ddiffが加算される。これにより、アクセルペダル検出量系列o2、ブレーキペダル検出量系列o3の、アクセルペダル操作量系列i2、ブレーキペダル操作量系列i3においてペダル操作量ar−iがペダル遊び量差ddiffよりも小さい部分が、一律に、ペダル遊び量差ddiffの値へと変換される。
In the example of FIG. 5, than the pedal play amount d r of the
This is due to the following reasons. That is, when the pedal operation amount a r-i included in the input operation is smaller than the pedal play amount difference d diff , the pedal operation adjusted by the
これに対し、本変形例における第2ペダル遊び量調整部55Aは、次の式4を使用して、模擬走行状態omに含まれるペダル検出量av−oを調整する。
本変形例の学習システムにおいては、第2ペダル遊び量調整部55Aは、入力操作i2、i3に含まれるペダル操作量ar−iから差分値ddiffを減算した値が、0以上の場合には、模擬走行状態omに含まれるペダル検出量av−oを、当該ペダル検出量av−oに差分値ddiffを加算することで調整して、調整されたペダル検出量ar−oを生成し、それ以外の場合には、入力操作i2、i3に含まれるペダル操作量ar−iの値を、調整されたペダル検出量ar−oとする。
上記のような構成によれば、調整されたペダル検出量ar−oを、入力操作i2、i3に含まれるペダル操作量ar−iに近い値として表現することができる。このため、操作推論学習モデル70の入力となる調整された模擬走行状態oを、現実のペダル操作に近い状態とすることができ、したがって、操作推論学習モデル70の学習精度の低下を、効果的に抑制できる。
本変形例が、既に説明した実施形態と同様な他の効果を奏することは言うまでもない。
In the learning system of this modification, the second pedal play
According to the above configuration, the adjusted pedal detection amount a r-o can be expressed as a value close to the pedal operation amount a r-i included in the input operations i2 and i3. Therefore, the adjusted simulated running state o that is the input of the operation
Needless to say, this modification has other effects similar to those of the embodiments already described.
[実施形態の第2変形例]
次に、図9、図10を用いて、上記実施形態として示したドライブロボットを制御する操作推論学習モデルの学習システム及び学習方法の第2変形例を説明する。図9は、上記第1変形例におけるペダル遊び量の調整において、車両モデルの推論に時間を要した場合の説明図である。図10は、本第2変形例における第2ペダル遊び量調整部の動作の説明図である。本第2変形例における学習システムは、上記第1変形例の学習システムの更なる変形例であり、第2ペダル遊び量調整部55Bの処理内容が異なっている。
[Second variant of the embodiment]
Next, with reference to FIGS. 9 and 10, a second modification of the learning system and learning method of the operation inference learning model for controlling the drive robot shown in the above embodiment will be described. FIG. 9 is an explanatory diagram when it takes time to infer the vehicle model in adjusting the pedal play amount in the first modification. FIG. 10 is an explanatory diagram of the operation of the second pedal play amount adjusting unit in the second modification. The learning system in the second modification is a further modification of the learning system in the first modification, and the processing content of the second pedal play
第1変形例として説明した学習システムに、図9の左上に示されるようなアクセルペダル操作量系列i2が入力されると、第1ペダル遊び量調整部54により図9の右上に示されるようなモデル入力アクセルペダル操作量系列im2に変換され、これが車両モデルに入力される。
ここで、車両モデルによるモデル出力アクセルペダル検出量系列om2の推論に時間を要すると、図9の右下に示されるように、モデル入力アクセルペダル操作量系列im2とモデル出力アクセルペダル検出量系列om2の間に遅延時間Dとして示されるような遅延が生じる。
このような状況でモデル出力アクセルペダル検出量系列om2が第1変形例の第2ペダル遊び量調整部55Aに入力されると、図9左下に示されるようなアクセルペダル検出量系列o2が出力される。より詳細には、アクセルペダル操作量系列i2においてペダル操作量ar−iがペダル遊び量差ddiff以下の値となっている時刻T1から遅延時間Dの間においては、式4によってアクセルペダル操作量系列i2の値がアクセルペダル検出量系列o2として採用されている。結果として、範囲R5として示されるように、アクセルペダル検出量系列o2の立下り部分において、本来であればペダル遊び量差ddiffよりも大きな値をとるのが望ましいであろう部分が、ペダル遊び量差ddiffよりも小さな値となっている。
When the accelerator pedal operation amount series i2 as shown in the upper left of FIG. 9 is input to the learning system described as the first modification, the first pedal play
Here, if it takes time to infer the model output accelerator pedal detection amount series om2 by the vehicle model, as shown in the lower right of FIG. 9, the model input accelerator pedal operation amount series im2 and the model output accelerator pedal detection amount series om2 There is a delay between the two, as shown as the delay time D.
In such a situation, when the model output accelerator pedal detection amount series om2 is input to the second pedal play
本変形例の第2ペダル遊び量調整部55Bにおいては、次の式5を使用して、模擬走行状態omに含まれるペダル検出量av−oを調整する。
本変形例の学習システムにおいては、第2ペダル遊び量調整部55Bは、入力操作i2、i3に含まれるペダル操作量ar−iから差分値ddiffを減算した値が0以上であるか、模擬走行状態omに含まれるペダル検出量av−oが0より大きい場合には、模擬走行状態omに含まれるペダル検出量av−oを、当該ペダル検出量av−oに差分値ddiffを加算することで調整して、調整されたペダル検出量ar−oを生成し、それ以外の場合には、入力操作i2、i3に含まれるペダル操作量ar−iの値を、調整されたペダル検出量ar−oとする。
上記のような構成によれば、車両モデルの推論に時間を要する場合においても、操作推論学習モデル70の学習精度の低下を、効果的に抑制できる。
本変形例が、既に説明した実施形態と同様な他の効果を奏することは言うまでもない。
In the learning system of this modified example, in the second pedal play
According to the above configuration, even when it takes time to infer the vehicle model, it is possible to effectively suppress a decrease in learning accuracy of the operation
Needless to say, this modification has other effects similar to those of the embodiments already described.
なお、本発明のドライブロボットを制御する操作推論学習モデルの学習システム及び学習方法は、図面を参照して説明した上述の実施形態及び各変形例に限定されるものではなく、その技術的範囲において他の様々な変形例が考えられる。 The learning system and learning method of the operation inference learning model for controlling the drive robot of the present invention are not limited to the above-described embodiment and each modification described with reference to the drawings, but are within the technical scope thereof. Various other variants are possible.
例えば、上記実施形態及び各変形例においては、車両モデル52はペダル検出量の系列を、すなわち複数のペダル検出量の値を出力したが、これに限られず、ペダル検出量の値を1つだけ出力してもよい。
また、上記実施形態及び各変形例においては、操作は、アクセルペダル2cとブレーキペダル2dの双方を含んでいたが、これに限られず、アクセルペダル2cのみであってもよいし、ブレーキペダル2dのみであっても構わない。
また、上記実施形態及び各変形例においては、操作推論学習モデル70が推論した操作は、ドライブロボットモデル51によって実際のペダル操作量の値へと変換されて、入力操作が生成されたが、これに限られない。例えば、操作推論学習モデル70は、入力操作そのものを推論し、この入力操作が、ドライブロボットモデル51を介さず、車両モデル52に入力されるようにしてもよい。
For example, in the above embodiment and each modification, the
Further, in the above-described embodiment and each modification, the operation includes both the
Further, in the above embodiment and each modification, the operation inferred by the operation
また、上記実施形態及び各変形例においては、車両モデル52はニューラルネットワークとして実現された車両学習モデル60を備え、この車両学習モデル60によって車両2を模擬動作させていたが、これに限られない。すなわち、車両モデルは、車両2を模擬動作するように設定され、操作が入力されると、ペダルのペダル検出量を含む、車両2を模した模擬走行状態を出力するものであれば、機械学習された学習モデルでなくともよい。
例えば、車両2の動特性まで一致しなくとも良いような場合においては、学習対象となる車両2に依らない物理モデルを車両モデルとして用いても構わない。本実施形態及び各変形例において説明した第1及び第2ペダル遊び量調整部54、55を用いることにより、操作推論学習モデル70の学習対象となる車両と、事前学習に使用される車両モデル52の間のペダル遊び量が調整、吸収される。このため、例えば車両モデル52として、操作推論学習モデル70の学習対象とは異なる車両の物理モデルも使用可能である。
操作推論学習モデル70を事前学習する目的の一つは、既に説明したように、人間には不可能で、実車両に負担がかかる、好ましくない操作を推論する可能性がある学習の初期段階に、実車両を使用しないことである。したがって、これを主目的として事前学習するに際し、例えば、車両2の動特性は事前学習後に、実際の車両2を用いて学習されることが前提であれば、学習対象となる車両2に依らない物理モデルであっても、事前学習で十分に使用可能である。
このようにした場合においては、何らかの車両モデルが用意できる環境にあるのであれば、車両学習モデル60を機械学習させなくとも、操作推論学習モデル70を事前学習することができる。したがって、操作推論学習モデル70の学習が容易である。
Further, in the above-described embodiment and each modification, the
For example, when it is not necessary to match the dynamic characteristics of the
One of the purposes of pre-learning the operation
In such a case, if the environment is such that some vehicle model can be prepared, the operation
これ以外にも、本発明の主旨を逸脱しない限り、上記実施形態及び各変形例で挙げた構成を取捨選択したり、他の構成に適宜変更したりすることが可能である。 In addition to this, as long as the gist of the present invention is not deviated, the configurations given in the above-described embodiment and each modification can be selected or changed to other configurations as appropriate.
1 試験装置
2 車両
2c アクセルペダル
2d ブレーキペダル
3 シャシーダイナモメータ
4 ドライブロボット(自動操縦ロボット)
10 学習システム
11 学習制御装置
20 ドライブロボット制御部
30 学習部
40 強化学習部
41 操作内容推論部
50 試験装置モデル
51 ドライブロボットモデル
52 車両モデル
53 シャシーダイナモメータモデル
54 第1ペダル遊び量調整部
55、55A、55B 第2ペダル遊び量調整部
60 車両学習モデル
70 操作推論学習モデル
i1 車速系列
i2 アクセルペダル操作量系列(入力操作)
i3 ブレーキペダル操作量系列(入力操作)
im2 モデル入力アクセルペダル操作量系列(調整された入力操作)
im3 モデル入力ブレーキペダル操作量系列(調整された入力操作)
om 模擬走行状態
o 調整された模擬走行状態
ar−i 入力操作に含まれるペダル操作量
av−i 調整されたペダル操作量
av−o 模擬走行状態に含まれるペダル検出量
ar−o 調整されたペダル検出量
dr 車両のペダル遊び量
dv 車両モデルのペダル遊び量
ddiff ペダル遊び量差(差分値)
1
10
i3 Brake pedal operation amount series (input operation)
im2 model input accelerator pedal operation amount series (adjusted input operation)
im3 model input brake pedal operation amount series (adjusted input operation)
om Simulated running state o Adjusted simulated running state a r-i Pedal operation amount included in input operation a v-i Adjusted pedal operation amount a v o Pedal detection amount included in simulated running state a r-o Adjusted pedal detection amount dr Vehicle pedal play amount d v Vehicle model pedal play amount d diff Pedal play amount difference (difference value)
Claims (8)
前記操作は、アクセルペダルとブレーキペダルのいずれか一方または双方のペダルの、ペダル操作量を含み、
前記車両を模擬動作するように設定され、前記ペダルのペダル検出量を含む、前記車両を模した模擬走行状態を出力する、車両モデルと、
前記車両のペダル遊び量と、前記車両モデルのペダル遊び量の差分値を基に、前記操作推論学習モデルが推論した前記操作を基にした入力操作に含まれる前記ペダル操作量を前記車両モデルにあわせて調整し、調整された前記入力操作を前記車両モデルへ入力する、第1ペダル遊び量調整部と、
前記差分値の正負を反転させた反転差分値を基に、前記模擬走行状態に含まれる前記ペダル検出量を前記車両にあわせて調整し、調整された前記模擬走行状態を生成する、第2ペダル遊び量調整部と、
を備え、
前記調整された前記模擬走行状態を前記操作推論学習モデルに適用することで、前記操作推論学習モデルを機械学習する、自動操縦ロボットを制御する操作推論学習モデルの学習システム。 An operation inference learning model that infers the operation of the vehicle such that the vehicle is driven according to a specified command vehicle speed based on the traveling state of the vehicle including the vehicle speed, and an operation inference learning model mounted on the vehicle and based on the operation. It is a learning system of an operation inference learning model that controls an autopilot robot and includes an autopilot robot that runs the vehicle and machine-learns the operation inference learning model.
The operation includes the amount of pedal operation of one or both of the accelerator pedal and the brake pedal.
A vehicle model that is set to perform a simulated operation of the vehicle and outputs a simulated running state that imitates the vehicle, including a pedal detection amount of the pedal.
Based on the difference value between the pedal play amount of the vehicle and the pedal play amount of the vehicle model, the pedal operation amount included in the input operation based on the operation inferred by the operation inference learning model is applied to the vehicle model. A first pedal play amount adjusting unit that adjusts and inputs the adjusted input operation to the vehicle model, and
A second pedal that adjusts the pedal detection amount included in the simulated running state according to the vehicle and generates the adjusted simulated running state based on the inverted difference value obtained by reversing the positive and negative of the difference value. Play amount adjustment part and
With
A learning system for an operation inference learning model that controls an automatic control robot, which machine-learns the operation inference learning model by applying the adjusted simulated running state to the operation inference learning model.
前記第2ペダル遊び量調整部は、前記模擬走行状態に含まれる前記ペダル検出量を、当該ペダル検出量に前記差分値を加算することで調整して、調整された前記ペダル検出量を生成する、請求項1に記載の自動操縦ロボットを制御する操作推論学習モデルの学習システム。 The first pedal play amount adjusting unit adjusts the pedal operation amount included in the input operation by subtracting the difference value from the pedal operation amount to generate the adjusted pedal operation amount.
The second pedal play amount adjusting unit adjusts the pedal detection amount included in the simulated running state by adding the difference value to the pedal detection amount to generate the adjusted pedal detection amount. , A learning system for an operation inference learning model that controls the automatic control robot according to claim 1.
それ以外の場合には、前記入力操作に含まれる前記ペダル操作量の値を、前記調整された前記ペダル検出量とする、請求項2に記載の自動操縦ロボットを制御する操作推論学習モデルの学習システム。 When the value obtained by subtracting the difference value from the pedal operation amount included in the input operation is 0 or more, the second pedal play amount adjusting unit determines the pedal detection amount included in the simulated running state. The adjusted pedal detection amount is generated by adding the difference value to the pedal detection amount.
In other cases, learning of the operation inference learning model for controlling the automatic control robot according to claim 2, wherein the value of the pedal operation amount included in the input operation is the adjusted pedal detection amount. system.
それ以外の場合には、前記入力操作に含まれる前記ペダル操作量の値を、前記調整された前記ペダル検出量とする、請求項2に記載の自動操縦ロボットを制御する操作推論学習モデルの学習システム。 In the second pedal play amount adjusting unit, the value obtained by subtracting the difference value from the pedal operation amount included in the input operation is 0 or more, or the pedal detection amount included in the simulated running state is larger than 0. In this case, the pedal detection amount included in the simulated running state is adjusted by adding the difference value to the pedal detection amount to generate the adjusted pedal detection amount.
In other cases, learning of the operation inference learning model for controlling the automatic control robot according to claim 2, wherein the value of the pedal operation amount included in the input operation is the adjusted pedal detection amount. system.
前記操作は、アクセルペダルとブレーキペダルのいずれか一方または双方のペダルの、ペダル操作量を含み、
前記車両を模擬動作するように設定され、前記ペダルのペダル検出量を含む、前記車両を模した模擬走行状態を出力する車両モデルにあわせて、前記車両のペダル遊び量と、前記車両モデルのペダル遊び量の差分値を基に、前記操作推論モデルが推論した前記操作を基にした入力操作に含まれる前記ペダル操作量を調整し、調整された前記入力操作を前記車両モデルへ入力し、
前記差分値の正負を反転させた反転差分値を基に、前記模擬走行状態に含まれる前記ペダル検出量を前記車両にあわせて調整し、調整された前記模擬走行状態を生成し、
前記調整された前記模擬走行状態を前記操作推論学習モデルに適用することで、前記操作推論学習モデルを機械学習する、自動操縦ロボットを制御する操作推論学習モデルの学習方法。
An operation inference learning model that infers the operation of the vehicle such that the vehicle is driven according to a specified command vehicle speed based on the traveling state of the vehicle including the vehicle speed, and an operation inference learning model mounted on the vehicle and based on the operation. It is a learning method of an operation inference learning model that controls an automatic control robot, which machine-learns the operation inference learning model with respect to the automatic control robot that runs the vehicle.
The operation includes the amount of pedal operation of one or both of the accelerator pedal and the brake pedal.
The pedal play amount of the vehicle and the pedal of the vehicle model are set according to the vehicle model that is set to perform the simulated operation of the vehicle and outputs a simulated running state that imitates the vehicle, including the pedal detection amount of the pedal. Based on the difference value of the play amount, the pedal operation amount included in the input operation based on the operation inferred by the operation inference model is adjusted, and the adjusted input operation is input to the vehicle model.
Based on the inverted difference value obtained by reversing the positive and negative of the difference value, the pedal detection amount included in the simulated traveling state is adjusted according to the vehicle, and the adjusted simulated traveling state is generated.
A learning method of an operation inference learning model that controls an automatic control robot, which machine-learns the operation inference learning model by applying the adjusted simulated running state to the operation inference learning model.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020041429A JP2021143882A (en) | 2020-03-11 | 2020-03-11 | Learning system and learning method for operation inference learning model that controls automatically manipulated robot |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020041429A JP2021143882A (en) | 2020-03-11 | 2020-03-11 | Learning system and learning method for operation inference learning model that controls automatically manipulated robot |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021143882A true JP2021143882A (en) | 2021-09-24 |
Family
ID=77766324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020041429A Pending JP2021143882A (en) | 2020-03-11 | 2020-03-11 | Learning system and learning method for operation inference learning model that controls automatically manipulated robot |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021143882A (en) |
-
2020
- 2020-03-11 JP JP2020041429A patent/JP2021143882A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020183864A1 (en) | Learning system and learning method for operation inference learning model for controlling automatic driving robot | |
JP6908144B1 (en) | Control device and control method for autopilot robot | |
Howell et al. | Continuous action reinforcement learning applied to vehicle suspension control | |
KR102313002B1 (en) | Vehicle speed control device and vehicle speed control method | |
JP7128152B2 (en) | Learning method and program | |
CN110097191A (en) | Information processing method and information processing system | |
WO2022059484A1 (en) | Learning system and learning method for operation inference learning model for controlling automated driving robot | |
JP7110891B2 (en) | Autopilot robot control device and control method | |
JP2009129366A (en) | Sensibility estimation system of vehicle | |
JP2021143882A (en) | Learning system and learning method for operation inference learning model that controls automatically manipulated robot | |
JP6866940B1 (en) | Control device and control method for autopilot robot | |
Gaiselmann et al. | Deep reinforcement learning for gearshift controllers in automatic transmissions | |
JP7336856B2 (en) | Information processing device, method and program | |
JP2021128510A (en) | Learning system and learning method for operation deduction learning model for controlling automatic operation robot | |
Albeaik et al. | Deep Truck: A deep neural network model for longitudinal dynamics of heavy duty trucks | |
US20220114461A1 (en) | Model learning apparatus, control apparatus, model learning method and computer program | |
JP2024001584A (en) | Control unit and control method for automatic steering robot | |
Togai et al. | Human driving behavior analysis and model representation with expertise acquiring process for controller rapid prototyping | |
JP7248053B2 (en) | Control device and control method | |
CN113022582B (en) | Control device, control method for control device, recording medium, information processing server, information processing method, and control system | |
JP2023043899A (en) | Control device and control method | |
WO2022138352A1 (en) | Device and method for controlling automatic driving robot | |
Vargas et al. | Stochastic stability of switching linear systems with application to an automotive powertrain model | |
Pretorius | Artificial Neural Networks as simulators for behavioural evolution in evolutionary robotics | |
Habbash et al. | Reinforcement Learning for Autonomous Agents Exploring Environments: an Experimental Framework and Preliminary Results. |