JP2022135788A - vehicle controller - Google Patents
vehicle controller Download PDFInfo
- Publication number
- JP2022135788A JP2022135788A JP2021035841A JP2021035841A JP2022135788A JP 2022135788 A JP2022135788 A JP 2022135788A JP 2021035841 A JP2021035841 A JP 2021035841A JP 2021035841 A JP2021035841 A JP 2021035841A JP 2022135788 A JP2022135788 A JP 2022135788A
- Authority
- JP
- Japan
- Prior art keywords
- action
- control device
- vehicle
- torque
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/60—Other road transportation technologies with climate change mitigation effect
- Y02T10/72—Electric energy management in electromobility
Abstract
Description
この発明は車両制御装置に関するものである。 The present invention relates to a vehicle control system.
車両が岩場などの悪路を走行していると、駆動輪がスリップすることがある。そして、スリップしていた駆動輪のグリップが回復すると、回転が急に制動される。その結果、その駆動輪に駆動力を伝達しているドライブラインに大きな負荷がかかることになる。 When the vehicle is traveling on a rough road such as a rocky place, the drive wheels may slip. Then, when the grip of the slipping drive wheels recovers, the rotation is suddenly braked. As a result, a large load is applied to the driveline that transmits the driving force to the drive wheels.
特許文献1に開示されている制御装置は、駆動輪がスリップしているときに、スリップが収束するとドライブラインに過大な負荷が作用することが推定される状態であるか否かを判定する。そして、この制御装置は、過大な負荷が作用することが推定される状態であると判定した場合には、高変速比側に変速段を変更する。 The control device disclosed in Japanese Patent Laid-Open No. 2002-200002 determines whether or not it is estimated that an excessive load will be applied to the driveline when the slip converges when the drive wheels are slipping. Then, when the control device determines that the state is such that an excessive load is expected to act, it changes the gear stage to the high gear ratio side.
この制御装置は、こうして高変速比側に変速段を変更することにより、駆動輪の回転速度を低下させ、スリップしていた駆動輪がグリップした際にドライブラインに作用する負荷を低減するようにしている。 By changing the gear stage to the high gear ratio side in this way, the control device lowers the rotation speed of the drive wheels and reduces the load acting on the drive line when the slipping drive wheels grip. ing.
しかし、上記のように高変速比側の変速段に変更してしまうと、スリップしている駆動輪だけでなく全ての駆動輪の回転速度が低下してしまう。その結果、車両の速度が低下し、走破性が低下してしまう。 However, if the gear stage is changed to the high gear ratio side as described above, the rotation speed of not only the slipping drive wheels but also all of the drive wheels will decrease. As a result, the speed of the vehicle decreases, and the running performance deteriorates.
以下、上記課題を解決するための手段及びその作用効果について記載する。
上記課題を解決するための車両制御装置は、各駆動輪のトルクを個別に制御することのできる機構を備えた車両を制御する。この車両制御装置は、車両前方の路面の画像から抽出した路面情報データを含む状態変数が入力されると前記機構の制御量を操作する行動を決定して出力する学習済みモデルを記憶した記憶装置と、前記学習済みモデルに前記状態変数を入力することによって出力された前記行動に基づいて前記制御量を操作し、前記機構を制御する処理回路と、を備えている。前記学習済みモデルは、前記車両がいずれの駆動輪もスリップさせずに走行した距離が長いほど大きな報酬を付与する強化学習によって学習したモデルである。
Means for solving the above problems and their effects will be described below.
A vehicle control device for solving the above problems controls a vehicle having a mechanism capable of individually controlling the torque of each driving wheel. This vehicle control device stores a learned model that determines and outputs an action for manipulating the control amount of the mechanism when state variables including road surface information data extracted from an image of the road surface in front of the vehicle are input. and a processing circuit for controlling the mechanism by manipulating the control amount based on the behavior output by inputting the state variables to the learned model. The learned model is a model learned by reinforcement learning that gives a greater reward as the vehicle travels a longer distance without slipping any driving wheels.
上記構成では、車両前方の路面の画像から抽出した路面情報データを含む状態変数を用いて行動を決定する。そのため、駆動輪がこれから接地する路面の情報を行動の決定に反映させることができる。これにより、各駆動輪が接地する路面の状況を考慮して、スリップの発生を未然に防ぐように各駆動輪のトルクを制御することができる。また、学習済みモデルは、いずれの駆動輪もスリップさせずに走行した距離が長いほど大きな報酬を付与する強化学習によって学習されている。そのため、この制御装置によれば、全ての駆動輪のトルクを一律に抑制するのではなく、スリップの発生を回避しながら前進し続けることができるように各駆動輪のトルクをそれぞれに制御することができる。 In the above configuration, actions are determined using state variables including road surface information data extracted from an image of the road surface in front of the vehicle. Therefore, it is possible to reflect the information of the road surface on which the drive wheels will come into contact with the decision of action. As a result, it is possible to control the torque of each driving wheel so as to prevent the occurrence of a slip in consideration of the condition of the road surface on which each driving wheel is grounded. In addition, the learned model is learned by reinforcement learning that gives a greater reward as the distance traveled without any driving wheels slipping increases. Therefore, according to this control device, instead of uniformly suppressing the torque of all drive wheels, the torque of each drive wheel is individually controlled so that the vehicle can continue to move forward while avoiding the occurrence of slip. can be done.
すなわち、上記構成によれば、走破性を確保しつつ、ドライブラインへの過大な負荷の入力を抑制することができる。 That is, according to the above configuration, it is possible to suppress the input of an excessive load to the driveline while ensuring the running performance.
以下、車両制御装置の一実施形態について、図1~図4を参照して説明する。
図1は、車両制御装置である制御装置100と、制御装置100が搭載されている車両のドライブトレインとを示している。
An embodiment of a vehicle control device will be described below with reference to FIGS. 1 to 4. FIG.
FIG. 1 shows a
<ドライブトレインの構成>
図1に示すように、この車両は、右前輪50RF、左前輪50LF、右後輪50RR、左後輪50LRの4つの車輪を備えている。
<Configuration of drive train>
As shown in FIG. 1, this vehicle has four wheels: a right front wheel 50RF, a left front wheel 50LF, a right rear wheel 50RR, and a left rear wheel 50LR.
この車両には、動力源としてエンジン10が搭載されている。エンジン10は、車両前部のエンジンコンパートメント内に収容されている。エンジンコンパートメント内にはエンジン10の出力軸の回転を変速する変速機20も収容されている。変速機20のケースにはフロントディファレンシャル21が収容されている。フロントディファレンシャル21は、変速機20で変速した回転を右フロントドライブシャフト51RF及び左フロントドライブシャフト51LFに伝達する。右フロントドライブシャフト51RFは、右前輪50RFに接続されている。右フロントドライブシャフト51RFが回転することにより、右前輪50RFが駆動される。また、左フロントドライブシャフト51LFは、左前輪50LFに接続されている。左フロントドライブシャフト51LFが回転することにより、左前輪50LFが駆動される。右前輪50RFにはブレーキ60RFが設けられている。左前輪50LFにはブレーキ60LFが設けられている。
This vehicle is equipped with an
フロントディファレンシャル21と右前輪50RFの間、車両の幅方向における中央部には、トランスファ30が設けられている。トランスファ30は、フロントディファレンシャル21から右フロントドライブシャフト51RFに伝達された回転を、プロペラシャフト52を介して後輪側に伝達するための装置である。トランスファ30は、フロントディスコネクト機構31を備えている。フロントディスコネクト機構31は、フロントディファレンシャル21及び右フロントドライブシャフト51RFとプロペラシャフト52との間の回転の伝達を遮断するための機構である。
A
プロペラシャフト52は、リヤディファレンシャル40に接続されている。リヤディファレンシャル40は、右後輪50RRと左後輪50LRの間に配置されている。リヤディファレンシャル40は、プロペラシャフト52を介して伝達された回転を右リヤドライブシャフト51RR及び左リヤドライブシャフト51LRに伝達する。右リヤドライブシャフト51RRは、右後輪50RRに接続されている。右リヤドライブシャフト51RRが回転することにより、右後輪50RRが駆動される。また、左リヤドライブシャフト51LRは、左後輪50LRに接続されている。左リヤドライブシャフト51LRが回転することにより、左後輪50LRが駆動される。右後輪50RRにはブレーキ60RRが設けられている。左後輪50LRにはブレーキ60LRが設けられている。
リヤディファレンシャル40には、リヤディスコネクト機構41と、電子制御カップリング42Rと、電子制御カップリング42Lが搭載されている。
電子制御カップリング42R及び電子制御カップリング42Lは、内蔵している電磁クラッチを操作することによりリヤドライブシャフトに駆動力を伝達する割合を変更するための機構である。すなわち、電子制御カップリング42Rは、内蔵している電磁クラッチを操作することにより右後輪50RRに伝達する駆動力の割合を変更することのできる機構である。一方で、電子制御カップリング42Lは、内蔵している電磁クラッチを制御することにより左後輪50LRに伝達する駆動力の割合を変更することのできる機構である。
The
The electronically controlled
リヤディスコネクト機構41は、プロペラシャフト52と電子制御カップリング42R及び電子制御カップリング42Lとの間の回転の伝達を遮断するための機構である。
このように、この車両のドライブトレインは、4つの車輪を駆動することができるように構成されている。すなわち、この車両では、右前輪50RF、左前輪50LF、右後輪50RR、左後輪50LRがいずれも駆動輪になりえる。
The
Thus, the drive train of this vehicle is configured to be able to drive four wheels. That is, in this vehicle, any of the right front wheel 50RF, the left front wheel 50LF, the right rear wheel 50RR, and the left rear wheel 50LR can be driving wheels.
<制御装置100の構成>
制御装置100は、プログラムが記憶されている記憶装置110と、記憶装置110に記憶されているプログラムを実行して各種の処理を実行する処理回路120と、を備えている。制御装置100は、エンジン10の各部を制御し、エンジン10の出力を制御する。また、制御装置100は、変速機20、フロントディスコネクト機構31、リヤディスコネクト機構41、電子制御カップリング42R及び電子制御カップリング42Lを制御する。さらに、制御装置100は、4つの車輪に設けられたブレーキ60RF、ブレーキ60LF、ブレーキ60RR、ブレーキ60LRを制御する。なお、この車両では、ブレーキ60RF、ブレーキ60LF、ブレーキ60RR、ブレーキ60LRによる制動力を個別に制御することができるようになっている。
<Configuration of
The
制御装置100は、エンジン10の出力を制御するとともに、変速機20を制御することによって車両の駆動力を制御する。また、この車両では、フロントディスコネクト機構31、リヤディスコネクト機構41、電子制御カップリング42R及び電子制御カップリング42Lを制御することによって各車輪へのトルクの分配を制御することができる。
例えば、制御装置100は、フロントディスコネクト機構31及びリヤディスコネクト機構41により回転の伝達を遮断することにより、右前輪50RF及び左前輪50LFのみにトルクを分配することができる。すなわち、この車両は、後輪を駆動せずに、前輪駆動により走行することもできる。また、例えば、制御装置100は、ディスコネクト機構により回転の伝達を遮断せずに、電子制御カップリング42R及び電子制御カップリング42Lによって後輪に配分するトルクを操作することにより、右後輪50RR及び左後輪50LRへのトルクの配分を変更することができる。
For example,
さらに、この車両では、ブレーキ60RF、ブレーキ60LF、ブレーキ60RR、ブレーキ60LRによって各駆動輪の制動力の制御をあわせて行うことにより、各駆動輪のトルクを個別に制御することができる。 Furthermore, in this vehicle, the torque of each driving wheel can be individually controlled by controlling the braking force of each driving wheel by the brake 60RF, the brake 60LF, the brake 60RR, and the brake 60LR.
要するに、制御装置100が制御するこの車両は、各駆動輪のトルクを個別に制御することのできる機構を備えている。具体的には、フロントディスコネクト機構31、リヤディスコネクト機構41、電子制御カップリング42R、電子制御カップリング42L、ブレーキ60RF、ブレーキ60LF、ブレーキ60RR、ブレーキ60LRが、この機構に相当する。
In short, this vehicle controlled by the
制御装置100には、運転者による操作の状態、車両の状態、路面の状況を把握するための情報を収集する各種のセンサや装置が接続されている。
例えば、制御装置100には、アクセルポジションセンサ71が接続されている。アクセルポジションセンサ71は、運転者によるアクセルの操作量であるアクセル開度を検出する。制御装置100には、クランクポジションセンサ72が接続されている。クランクポジションセンサ72は、エンジン10の出力軸であるクランク軸の回転角に応じたクランク角信号を検出する。制御装置100は、クランク角信号に基づいてクランク軸の回転速度である機関回転速度を算出する。制御装置100には、ブレーキセンサ73が接続されている。ブレーキセンサ73は、ブレーキペダルの操作量を検出する。制御装置100には、車速センサ74が接続されている。車速センサ74は、変速機20の出力軸の回転速度を検出する。制御装置100は、車速センサ74によって検出された出力軸の回転速度に基づいて車両の速度を算出する。制御装置100には、ステアリングセンサ75が接続されている。ステアリングセンサ75は、ステアリングの操舵角を検出する。制御装置100には、各駆動輪の回転速度を検出する速度センサが接続されている。具体的には、制御装置100には、右前輪50RFの回転速度を検出する右フロント速度センサ76RFと、左前輪50LFの回転速度を検出する左フロント速度センサ76LFと、が接続されている。また、制御装置100には、右後輪50RRの回転速度を検出する右リヤ速度センサ76RRと、左後輪50LRの回転速度を検出する左リヤ速度センサ76LRも接続されている。また、制御装置100には、ヨーレートセンサ80とリニアGセンサ81も接続されている。ヨーレートセンサ80は、車両の旋回時の角速度であるヨーレートを検出する。リニアGセンサ81は車両の加速度を検出する。
The
For example, an
さらに、制御装置100には、車両前方の路面を撮影するカメラ70が接続されている。制御装置100には、雨滴センサ78も接続されている。雨滴センサ78は、フロントウィンドウに付着する雨滴の量を検出する。また、この車両には、GPS装置77が搭載されている。制御装置100は、GPS装置77から車両の位置情報を取得する。制御装置100は、取得した位置情報に基づいて車両の速度を算出することもできる。
Further, the
また、この車両には走行モード切替スイッチ79が設けられている。走行モード切替スイッチ79も制御装置100に接続されている。制御装置100は、走行モード切替スイッチ79からの信号に基づいて走行モードを切り替える。具体的には、この車両では、走行モード切替スイッチ79によって悪路走破性の高い悪路走行モードを選択することができるようになっている。制御装置100は、悪路走行モードが選択された場合には、エンジン10で発生させたトルクがプロペラシャフト52を介してリヤディファレンシャル40に伝達される状態にフロントディスコネクト機構31及びリヤディスコネクト機構41を固定する。そして、制御装置100は、変速機20を変速比の高い状態に固定し、各駆動輪のトルクを個別に制御して駆動輪のスリップの発生を抑制しながら、車両を走行させる。
This vehicle is also provided with a driving
<悪路走行モードにおける各駆動輪のトルクの制御>
制御装置100の記憶装置110には、悪路走行モードが選択されているときの各駆動輪のトルク制御に用いるモデルのデータが記憶されている。なお、このモデルは、強化学習によって学習された学習済みモデルである。
<Control of Torque of Each Driving Wheel in Rough Road Driving Mode>
The
制御装置100は、悪路走行モードが選択されているときに、アクセル開度に基づいてエンジン10の出力を制御する。そして、制御装置100は、カメラ70によって撮影した車両前方の路面の画像から抽出した路面情報データ、各速度センサで検出した各駆動輪の回転速度、ステアリングの操舵角、車速などを含む情報変数を学習済みモデルに入力してドライブトレインの各機構の制御量を操作する行動を決定する。そして、決定された行動に従って各機構の制御量を操作することにより、いずれの駆動輪もスリップさせないように、各駆動輪のトルクを制御する。すなわち、学習済みモデルは、状態変数を入力すると、ドライブトレインの各機構の制御量を操作する行動を出力するモデルになっている。
The
具体的には、学習済みモデルは、それぞれの駆動輪のトルクについて、トルクを増大させる、維持する、低減させる、という選択肢の中から行動を選択し、出力する。制御装置100の処理回路120は、学習済みモデルが出力した行動に従って各駆動輪のトルクを操作するようにドライブトレインの各機構を制御する。例えば、処理回路120は、右後輪50RRのトルクを増大させる際には、電子制御カップリング42Rによって右後輪50RRに分配するトルクを増大させる。また、例えば、処理回路120は、左前輪50LFのトルクを低減させる際には、ブレーキ60LFによる制動力を増大させる。このように、悪路走行モードでは、制御装置100の処理回路120は、電子制御カップリング42R、電子制御カップリング42L、ブレーキ60RF、ブレーキ60LF、ブレーキ60RR、ブレーキ60LRを制御して各駆動輪のトルクを個別に制御する。
Specifically, the learned model selects and outputs an action from options of increasing, maintaining, and reducing the torque of each drive wheel. The
<学習済みモデルの学習>
次に、悪路走行モードにおけるトルク制御である悪路走行処理に用いる学習済みモデルの学習について説明する。記憶装置110に記憶されている学習済みモデルは強化学習によって学習されている。
<Learning the trained model>
Next, learning of a learned model used for rough road running processing, which is torque control in the rough road running mode, will be described. The trained model stored in the
学習を行う学習システムでは、制御装置100に、状態変数に基づいて行動を決定させ、決定された行動を実行させる。そして、その行動実行後の状態に応じて報酬を評価すれば、選択した行動の行動価値が判明する。そこで、学習システムの制御装置100は、状態変数の取得と、取得した状態変数に応じた行動の決定と、決定した行動によって得られる報酬の評価とを繰り返すことによって学習を行う。
A learning system that performs learning causes the
強化学習におけるエージェントは、予め決められた方策に応じて行動aを選択する機能に相当する。強化学習における環境は、エージェントが選択した行動aと現在の状態sとに基づいて次の状態s`を決定し、行動aと状態sと状態s`とに基づいて即時報酬rを決定する機能に相当する。 An agent in reinforcement learning corresponds to a function that selects action a according to a predetermined policy. The environment in reinforcement learning is a function that determines the next state s' based on the agent's selected action a and the current state s, and determines the immediate reward r based on the action a, state s, and state s'. corresponds to
この実施形態かかる学習においては、予め決められた方策によって学習システムの制御装置100が行動aを選択し、状態sの更新を行う処理を繰り返すことにより、ある状態sにおけるある行動aの行動価値関数Q(s,a)を算出するQ学習が採用されている。
In learning according to this embodiment, the
ここでは、下記の式(1)によって行動価値関数Q(s,a)を更新する。 Here, the action value function Q(s, a) is updated by the following formula (1).
上記の式(1)では、行動価値関数Q(s,a)は、状態sにおいて行動aを取った場合において将来にわたって得られる収益の期待値である。報酬はrである。そして、状態s、行動a、報酬rにおける添え字のtは、時系列で繰り返す試行過程における1回分のステップを示す試行番号である。行動決定後に状態sが変化すると試行番号tが1つインクリメントされる。なお、以下では、添え字を「_」に続けて記載する。したがって、式(1)内の報酬r_t+1は、状態s_tで行動a_tが選択され、状態sがs_t+1になった場合に得られる報酬rである。αは学習率、γは割引率である。また、a`は、状態s_t+1で取り得る行動a_t+1の中で行動価値関数Q(s_t+1,a_t+1)を最大化する行動aである。そして、max_(a`)Q(s_t+1,a`)は、行動a`が選択されたことによって最大化された行動価値関数Qである。
In the above equation (1), the action-value function Q(s, a) is the expected value of future profits obtained when action a is taken in state s. The reward is r. The suffix t in the state s, the action a, and the reward r is a trial number indicating one step in the trial process repeated in chronological order. When the state s changes after action determination, the trial number t is incremented by one. In addition, below, a subscript is described following "_". Therefore, the reward r_t+1 in equation (1) is the reward r obtained when action a_t is selected in state s_t and state s becomes
この実施形態の強化学習においては、各駆動輪のトルクを制御することが行動aの決定に相当しており、取り得る行動を示す情報が制御装置100の記憶装置110に予め記録される。
In the reinforcement learning of this embodiment, controlling the torque of each drive wheel corresponds to determining the action a, and information indicating possible actions is recorded in advance in the
上述したように、行動aは、トルクを増大させる、維持する、低減させる、の3ついずれかをそれぞれの駆動輪について選択可能である。もちろんこれは、一例であり、行動aの内容はこうした内容に限定する必要はなく、行動aの選択肢がこれより多くて、少なくてもよい。 As described above, the action a can select one of the three actions of increasing, maintaining, and decreasing the torque for each drive wheel. Of course, this is just an example, and the content of action a need not be limited to such content, and action a may have more or fewer options.
この実施形態の強化学習においては、報酬rは、いずれの駆動輪もスリップさせずに車両が走行した距離が長いほど大きくなるように設定される。具体的には、状態変数には、各速度センサによって検出される各駆動輪の回転速度が含まれている。4つの速度センサが検出した回転速度の中に、他の3つの速度センサが検出した回転速度から乖離して高くなっている回転速度がある場合には、その回転速度を検出した速度センサが設けられている駆動輪がスリップしていることになる。制御装置100は、こうしていずれかの駆動輪でスリップが発生したか否かを判定し、スリップが発生した場合には、その時点でその学習のための試行のエピソードを終了させる。そして、スリップが発生したことに対する報酬rとして負の報酬r、例えば「-10」を与える。一方で、いずれの駆動輪でもスリップが発生しなかった場合には、試行を継続する。試行を継続している間に車両が走行した距離に応じて正の報酬rを増加させ、試行が終了した時点でその報酬rが決定する。こうすることにより、いずれの駆動輪もスリップさせずに車両が走行した距離が長くなるほど報酬rが大きくなる。なお、車両が走行した距離は、例えば、GPS装置77から取得した位置情報に基づいて算出することができる。
In the reinforcement learning of this embodiment, the reward r is set to increase as the distance traveled by the vehicle without slipping any driving wheels increases. Specifically, the state variables include the rotational speed of each drive wheel detected by each speed sensor. If the rotation speed detected by the four speed sensors includes a rotation speed that deviates from the rotation speed detected by the other three speed sensors and is higher than the rotation speed detected by the other three speed sensors, a speed sensor that detects that rotation speed is provided. This means that the drive wheels that are engaged are slipping.
現在の状態sにおいて行動aが採用された場合における次の状態s`は、行動aとしての操作量を変更して車両を走行させ、状態変数を取得することによって特定可能である。
そのため、この実施形態では、状態変数として、各駆動輪の回転速度と、GPS装置77から取得した位置情報から算出した車速を入力する。具体的には、状態変数には、右フロント速度センサ76RFが検出した右前輪50RFの回転速度、左フロント速度センサ76LFが検出した左前輪50LFの回転速度が含まれている。また、状態変数には、右リヤ速度センサ76RRが検出した右後輪50RRの回転速度、左リヤ速度センサ76LRが検出した左後輪50LRの回転速度が含まれている。また、状態変数に車速が含まれていることにより、車速に基づいて走行距離を算出することができる。
The next state s' when the action a is adopted in the current state s can be specified by changing the operation amount as the action a, running the vehicle, and acquiring the state variables.
Therefore, in this embodiment, the rotational speed of each drive wheel and the vehicle speed calculated from the positional information obtained from the
状態変数には、アクセル開度及びブレーキペダルの操作量も含まれている。また、路面の状況を示す情報を参照して行動aを決定するために、状態変数には以下の情報も含まれている。 State variables also include the degree of accelerator opening and the amount of operation of the brake pedal. The state variables also include the following information in order to determine the action a by referring to the information indicating the road surface condition.
状態変数には、カメラ70によって撮影した車両前方の路面の画像から抽出した路面情報データが含まれている。例えば、路面情報データは、数メートル手前の時点で撮影された画像から各駆動輪が接地している箇所に相当する画像を切り出して各駆動輪が接地している路面の情報を抽出したデータである。このデータは、具体的には切り出した画像から畳み込みニューラルネットワークを利用して特徴量を抽出したベクトルであってもよい。また、このデータは、切り出した画像を解析して接地している路面に存在している凹凸の大きさや高さを算出したデータであってもよい。
The state variables include road surface information data extracted from the image of the road surface in front of the vehicle captured by the
また、状態変数には、車両の進行方向及び前輪の向きを把握するためにステアリングセンサ75によって検出された操舵角が含まれている。また、状態変数には、車両の傾きを把握するために、リニアGセンサ81によって検出された加速度が含まれている。また、雨によって路面が濡れていると、スリップしやすくなるため、雨滴センサ78の検出値も状態変数に含めている。雨滴センサ78によって検出されている雨滴の量が多ければ、それだけスリップしやすくなっていることが分かる。
The state variables also include the steering angle detected by the
学習の過程で参照される変数や関数を示す情報は、学習システムの記憶装置110に記憶される。学習システムの制御装置100は、状態変数の観測と、観測した状態変数に応じた行動aの決定と、その行動aによって得られる報酬rの評価とを行うことによって行動価値関数Q(s,a)を収束させる構成が採用されている。学習システムの制御装置100では、学習の過程で状態変数と行動aと報酬rとの時系列の値が、順次、記憶装置110に記録されていく。
Information indicating variables and functions referred to in the process of learning is stored in the
この実施形態では、行動価値関数Q(s,a)を近似的に算出する一手法であるDQN(Deep Q-Network)を採用している。DQNにおいては、多層ニューラルネットワークを用いて行動価値関数Q(s,a)を推定する。この実施形態では、状態sを入力として、選択し得る行動aの個数に対応した行動価値関数Q(s,a)の値を出力する多層ニューラルネットワークを採用している。 This embodiment employs DQN (Deep Q-Network), which is a technique for approximately calculating the action-value function Q(s, a). In DQN, a multilayer neural network is used to estimate the action-value function Q(s,a). This embodiment employs a multi-layer neural network that takes state s as input and outputs the value of action value function Q(s, a) corresponding to the number of selectable actions a.
図2は、行動価値関数Qを出力する多層ニューラルネットワークを模式的に示した図である。図2において、多層ニューラルネットワークは、状態変数であるM個の状態sを入力とし、N個の行動価値関数Qの値を出力としている。図2では、試行番号tにおけるM個の状態sをs_1t~s_Mtとして示している。 FIG. 2 is a diagram schematically showing a multilayer neural network that outputs the action-value function Q. As shown in FIG. In FIG. 2, the multi-layer neural network has M states s as state variables as inputs and N values of action-value functions Q as outputs. In FIG. 2, M states s at trial number t are indicated as s_1t to s_Mt.
なお、N個は選択し得る行動aの数であり、多層ニューラルネットワークの出力は、入力された状態sにおいて特定の行動aが選択された場合の行動価値関数Qの値である。図2では、試行番号tにおいて選択し得る行動a_1t~a_Ntのそれぞれにおける行動価値関数QをQ(s_t,a_1t)~Q(s_t,a_Nt)として示している。この行動価値関数Qに表記されている「s_t」は、試行番号tにおいて入力された状態s、すなわち、状態s_1t~s_Mtを代表して示す文字である。なお、この実施形態の例では、選択し得る行動aの個数は、4つの駆動輪に対してそれぞれ3つあるため、全部で12個になっている。したがってN=12である。 Note that N is the number of actions a that can be selected, and the output of the multilayer neural network is the value of the action value function Q when a specific action a is selected in the input state s. In FIG. 2, action value functions Q for actions a_1t to a_Nt that can be selected at trial number t are indicated as Q(s_t, a_1t) to Q(s_t, a_Nt). "s_t" written in this action value function Q is a character representing the state s input at the trial number t, that is, the states s_1t to s_Mt. In the example of this embodiment, the number of actions a that can be selected is three for each of the four drive wheels, so there are 12 in total. Therefore N=12.
図2に示す多層ニューラルネットワークは、各層の各ノードにおいて直前の層の入力に対する重みwの乗算とバイアスbの加算とを実行し、必要に応じて活性化関数を経た出力を得る演算を実行する全結合順伝播型のニューラルネットワークである。なお、図2では、隣り合う層のノードを繋ぐ伝送路の表記を省略している。 The multi-layer neural network shown in FIG. 2 performs multiplication of weight w and addition of bias b on the input of the immediately preceding layer at each node of each layer, and performs operations to obtain outputs via activation functions as necessary. It is a fully-connected forward-propagating neural network. In FIG. 2, notation of transmission lines connecting nodes in adjacent layers is omitted.
多層ニューラルネットワークの構造は、各層における重みwとバイアスb、活性化関数及び層の順序などの情報によって特定される。そのため、学習システムでは、この多層ニューラルネットワークを特定するためのパラメータが記憶装置110に記録される。なお、学習の際には、多層ニューラルネットワークの中で可変の値である重みwとバイアスbを更新していく。以下では、学習の過程で変化し得る多層ニューラルネットワークのパラメータをθと表記する。このθを使用することにより、行動価値関数Q(s_t,a_1t)~Q(s_t,a_Nt)は、Q(s_t,a_1t:θ_t)~Q(s_t,a_Nt:θ_t)とも表記できる。
The structure of a multi-layer neural network is specified by information such as weights w and biases b in each layer, activation functions and layer order. Therefore, in the learning system, parameters for specifying this multilayer neural network are recorded in the
次に図3に示すフローチャートを参照しながら学習処理の手順を説明する。図3に示すように学習処理を開始すると、学習システムの制御装置100は、ステップS100の処理において状態変数を取得する。そして、次に、制御装置100は、ステップS110の処理において、行動価値を算出する。すなわち、制御装置100は、記憶装置110に記憶された学習情報を参照してθを取得する。そして、記憶装置110に記憶された学習情報が示す多層ニューラルネットワークに最新の状態変数を入力し、N個の行動価値関数Q(s_t,a_1t:θ_t)~Q(s_t,a_Nt:θ_t)を算出する。なお、学習を開始した直後の初期状態では、初期値として設定したθが学習情報として記憶装置110に記憶されている。
Next, the procedure of the learning process will be described with reference to the flowchart shown in FIG. When the learning process is started as shown in FIG. 3, the
試行番号tは初回の実行時においては0である。学習処理が十分に進行していない場合、記憶装置110に示す学習情報が示すθは十分に最適化されていない。そのため、行動価値関数Qの値は不適当な値になり得る。しかし、試行を繰り返すことにより、行動価値関数Qは徐々に最適化されていく。また、試行の繰り返しにおいて、状態s、行動a、報酬rは、各試行番号tに対応付けられて記憶装置110に記憶されている。これにより、任意のタイミングで参照することができるようになっている。
The trial number t is 0 at the first execution. If the learning process has not progressed sufficiently, θ indicated by the learning information shown in
次に、学習システムの制御装置100は、ステップS120の処理において、行動aを選択し、実行する。この実施形態では、行動価値関数Q(s,a)を最大化する行動aが最適な行動aであるとみなす処理を行う。そこで、制御装置100はステップS110において算出されたN個の行動価値関数Q(s_t,a_1t:θ_t)~Q(s_t,a_Nt:θ_t)の値の中で最大の値を特定する。
Next, the
そして、学習システムの制御装置100は、最大の値を与えた行動aを選択する。例えば、N個の行動価値関数Q(s_t,a_1t:θ_t)~Q(s_t,a_Nt:θ_t)の中でQ(s_t,a_3t:θ_t)が最大値であれば、行動a_3tを選択する。
Then, the
行動aが選択されると、学習システムの制御装置100は、その行動aに従ってトルクを操作するようにパワートレインの機構の操作量を制御する。例えば、右前輪50RFのトルクを低減させる行動aが選択された場合には、制御装置100の処理回路120がブレーキ60RFの制動力を増大させる。
When an action a is selected, the
次に、学習システムの制御装置100は、ステップS130の処理において、状態変数を取得する。すなわち、制御装置100は、ステップS100における処理と同様の処理を行って、状態変数を取得する。なお、例えば、現在の試行番号がtであり、選択された行動aが行動a_tである場合、ステップS130の処理で取得される状態sは状態s_t+1である。
Next, the
次に、学習システムの制御装置100は、ステップS140の処理において、報酬rを評価する。具体的には、制御装置100は、上述したように各回転速度センサの検出した回転速度に基づいて、いずれかの駆動輪でスリップが発生したか否かを判定する。そして、スリップが発生していると判定した場合には、負の報酬rを取得する。そして、この学習のエピソードを終了させる。一方で、スリップが発生していないと判定した場合には、上述したようにGPS装置77から取得した位置情報に基づいて算出した車速に基づいて今回の試行で走行した距離を算出し、距離に応じた正の報酬rを取得する。なお、現在の試行番号がtである場合、ステップS140で取得される報酬rは報酬r_t+1である。
Next, the learning
次に、学習システムの制御装置100は、ステップS150の処理において、学習のエピソードがここで終了であるか否かを判定する。そして、ステップS150の処理においてエピソードが終了であると判定した場合(ステップS150:YES)には、制御装置100は、処理をステップS200へと進める。一方で、ステップS150の処理においてエピソードが終了ではないと判定した場合(ステップS150:NO)には、制御装置100は、処理をステップS100へと戻し、試行を継続する。
Next, in the process of step S150, the
こうして、制御装置100は、いずれかの駆動輪がスリップしたと判定されるまでステップS100~ステップS150の処理を繰り返し、報酬rを取得する。そして、いずれかの駆動輪がスリップしたと判定されると、制御装置100は、負の報酬rを取得して、その時点でエピソードを終了させ、処理をステップS200へと進める。
In this way, the
この実施形態では、式(1)に示した行動価値関数Qの更新を行うが、行動価値関数Qを適切に更新していくためには、θを最適化して行動価値関数Qを示す多層ニューラルネットワークを最適化していかなくてはならない。図2に示す多層ニューラルネットワークによって行動価値関数Qを適正に出力させるためには、出力のターゲットとなる教師データが必要になる。すなわち、多層ニューラルネットワークの出力と、ターゲットとの誤差を最小化するようにθを改善することによって、多層ニューラルネットワークを最適化することができる。 In this embodiment, the action-value function Q shown in equation (1) is updated. In order to update the action-value function Q appropriately, a multi-layer neural We have to optimize the network. In order for the multilayer neural network shown in FIG. 2 to properly output the action-value function Q, teacher data that serves as an output target is required. That is, the multi-layer neural network can be optimized by improving θ to minimize the error between the output of the multi-layer neural network and the target.
しかし、学習が完了していない段階では行動価値関数Qの知見が十分ではない。そのため、ターゲットを特定することが困難である。そこで、この実施形態では、式(1)の第2項、いわゆるTD誤差(Temporal Difference)を最小化する目的関数によって、多層ニューラルネットワークを示すθの改善を実施する。すなわち、((r_t+1)+γmax_(a`)Q(s_t+1,a`:θ_t))をターゲットとする。そして、ターゲットと、Q(s_t,a_t:θ_t)との誤差が最小化するようにθを学習する。ただし、ターゲット((r_t+1)+γmax_(a`)Q(s_t+1,a`:θ_t))は、学習対象のθを含んでいる。そのため、この実施形態では、既定のエピソード数にわたりターゲットを固定する。 However, knowledge of the action-value function Q is not sufficient at the stage where learning is not completed. Therefore, it is difficult to identify the target. Therefore, in this embodiment, improvement of θ, which indicates a multi-layer neural network, is performed by the second term of Equation (1), the objective function for minimizing the so-called TD error (Temporal Difference). That is, ((r_t+1)+γmax_(a′)Q(s_t+1, a′:θ_t)) is targeted. Then, θ is learned so as to minimize the error between the target and Q(s_t, a_t: θ_t). However, the target ((r_t+1)+γmax_(a′)Q(s_t+1, a′:θ_t)) includes θ to be learned. Therefore, in this embodiment the target is fixed for a predetermined number of episodes.
このような前提で学習を行うため、学習システムの制御装置100は、ステップS200の処理において目的関数を算出する。すなわち制御装置100は、エピソードのそれぞれにおけるTD誤差を評価するための目的関数を算出する。目的関数は、例えばTD誤差の2乗の期待値に比例する関数やTD誤差の2乗の総和などである。なおTD誤差は、ターゲットを固定して算出される。そこで、固定されたターゲットを((r_t+1)+γmax_(a`)Q(s_t+1,a`:θ_hold))と表記する。こうすると、TD誤差は((r_t+1)+γmax_(a`)Q(s_t+1,a`:θ_hold)-Q(s_t,a_t:θ_t))である。このTD誤差の式において報酬r_t+1は、行動a_tによってステップS140で得られた報酬である。
In order to perform learning on such a premise, the
また、max_(a`)Q(s_t+1,a`:θ_hold)は、行動a_tによってステップS130で取得される状態s_t+1を、固定されたθ_holdで特定される多層ニューラルネットワークの入力とした場合に得られる出力の中で最大の値である。 Also, max_(a′)Q(s_t+1, a′: θ_hold) is obtained when the state s_t+1 obtained in step S130 by the action a_t is input to a multi-layer neural network specified by a fixed θ_hold. The maximum value in the output.
そして、Q(s_t,a_t:θ_t)は、行動a_tが選択される前の状態s_tを、試行番号tの段階のθ_tで特定される多層ニューラルネットワークの入力とした場合に得られる出力の中で、行動a_tに対応した出力の値である。 Then, Q(s_t, a_t: θ_t) is the output obtained when the state s_t before action a_t is selected is input to a multi-layer neural network specified by θ_t at the stage of trial number t. , is the value of the output corresponding to the action a_t.
目的関数が算出されると、次のステップS210の処理において、学習システムの制御装置100は、学習が完了したか否かを判定する。ここでは、TD誤差が十分に小さくなっているか否かを判定するための閾値が予め設定されている。そして、目的関数が閾値以下である場合、制御装置100は、学習が完了していると判定する。
After the objective function is calculated, in the processing of the next step S210, the
ステップS210の処理において学習が完了したと判定されない場合(ステップS210:NO)には、学習システムの制御装置100は、処理をステップS220へと進める。そして、制御装置100は、ステップS220の処理において、行動価値を更新する。すなわち、制御装置100は、TD誤差のθによる偏微分に基づいて目的関数を小さくするためのθの変化を特定し、θを変化させる。ここでは、各種の手法でθを変化させることが可能である。例えば、勾配降下法を採用可能である。また、学習率などによる調整も適宜実施されてよい。こうした処理によれば、行動価値関数Qがターゲットに近づくようにθを変化させることができる。
If it is determined that learning has not been completed in the process of step S210 (step S210: NO),
ただし、上述のようにターゲットが固定されているため、学習システムの制御装置100は、さらにターゲットを更新するか否かの判定を行う。具体的には、学習システムの制御装置100は、次のステップS230の処理において、エピソード数が既定回数以上であるか否かを判定する。そして、制御装置100は、ステップS230においてエピソード数が既定回数以上であると判定された場合(ステップS230:YES)に、ステップS240へと処理を進める。
However, since the target is fixed as described above, the
ステップS240の処理では、学習システムの制御装置100は、ターゲットを更新する。すなわち、制御装置100は、ターゲットを算出する際に参照されるθを最新のθに更新する。この後、制御装置100は、処理をステップS100に戻す。そして、ステップS100以降の処理を繰り返す。
In the process of step S240, the learning
一方で、ステップS230の処理においてエピソード数が既定回数未満であると判定された場合(ステップS230:NO)には、制御装置100は、ステップS240の処理をスキップして処理をステップS100に戻す。そして、ステップS100以降の処理を繰り返す。
On the other hand, when it is determined in the process of step S230 that the number of episodes is less than the predetermined number (step S230: NO), the
また、ステップS210の処理において学習が完了したと判定された場合(ステップS210:YES)には、学習システムの制御装置100は、処理をステップS250へと進める。そして、ステップS250の処理において、制御装置100は、記憶装置110に記憶された学習情報を更新する。すなわち、制御装置100は、学習によって得られたθを、学習済みモデルとして記憶装置110に記憶させる。このθを含む学習済みモデルが、車両制御装置としての制御装置100の記憶装置110に記憶されると、車両に搭載された制御装置100の処理回路120は、その学習済みモデルを用いて各駆動輪のトルクを制御することができるようになる。
Further, when it is determined that the learning is completed in the process of step S210 (step S210: YES), the
<悪路走行処理>
図4は、車両の制御装置100において悪路走行モードが選択されているときに繰り返し実行する悪路走行処理を示すフローチャートである。
<Rough road travel processing>
FIG. 4 is a flowchart showing rough road travel processing that is repeatedly executed when the rough road travel mode is selected in the
この悪路走行処理が開始されると、車両制御装置である制御装置100の処理回路120は、ステップS300の処理を実行する。ステップS300の処理において、処理回路120は、図3を参照して説明したステップS100の処理と同様に状態変数を取得する。
When the rough road traveling process is started, the
次に、制御装置100の処理回路120は、ステップS310の処理において、ドライブトレインの機構の制御量を決定する。具体的には、処理回路120は、記憶装置110に記憶されている学習済みモデルにステップS300において取得した状態変数を入力する。そして処理回路120は、学習済みモデルの出力である行動価値関数Q(s,a)の中で最大の値を与える行動aを選択する。そして、処理回路120は、選択した行動aに基づいてドライブトレインの機構の制御量を決定する。
Next, the
次に、処理回路120、処理をステップS320へと進める。そして、ステップS320の処理において、処理回路120は、各駆動輪の駆動力及び制動力を制御して、各駆動輪のトルクを制御する。すなわち処理回路120は、ステップS310において決定した制御量に基づいてドライブトレインの機構を制御する。具体的には、処理回路120は、決定した制御量に基づいて電子制御カップリング42R及び電子制御カップリング42Lを制御する。これによって後輪に配分する駆動力を操作する。また、処理回路120は、決定した制御量に基づいてブレーキ60RF、ブレーキ60LF、ブレーキ60RR、ブレーキ60LRを制御する。これによって各駆動輪の制動力の制御をあわせて行う。これにより、処理回路120は、各駆動輪の駆動力及び制動力を制御し、各駆動輪のトルクを個別に制御する。こうしてステップS320の処理を実行すると、処理回路120は、このルーチンを一旦終了させる。
<作用>
以上の構成によれば、行動価値関数Qが最大化される行動aを選択して各駆動輪のトルクを制御することができる。行動価値関数Qは上述の学習処理を通じて多数の試行が繰り返された結果、最適化されている。学習済みモデルは、いずれの駆動輪もスリップさせずに走行した距離が長いほど大きな報酬rを付与する強化学習によって学習されている。そのため、この制御装置100によれば、全ての駆動輪のトルクを一律に抑制するのではなく、スリップの発生を回避しながら前進し続けることができるように各駆動輪のトルクをそれぞれに制御することができる。
<Action>
According to the above configuration, the action a that maximizes the action-value function Q can be selected to control the torque of each drive wheel. The action-value function Q is optimized as a result of repeating many trials through the learning process described above. The learned model is learned by reinforcement learning that gives a larger reward r as the distance traveled without any driving wheels slipping increases. Therefore, according to the
<効果>
(1)上記構成では、車両前方の路面の画像から抽出した路面情報データを含む状態変数を用いて行動aを決定する。そのため、駆動輪がこれから接地する路面の情報を行動aの決定に反映させることができる。これにより、各駆動輪が接地する路面の状況を考慮して、スリップの発生を未然に防ぐように各駆動輪のトルクを制御することができる。
<effect>
(1) In the above configuration, the action a is determined using state variables including road surface information data extracted from the image of the road surface in front of the vehicle. Therefore, it is possible to reflect the information of the road surface on which the drive wheels will touch the ground in the determination of the action a. As a result, it is possible to control the torque of each driving wheel so as to prevent the occurrence of a slip in consideration of the condition of the road surface on which each driving wheel is grounded.
(2)学習済みモデルは、いずれの駆動輪もスリップさせずに走行した距離が長いほど大きな報酬rを付与する強化学習によって学習されている。そのため、この制御装置100によれば、全ての駆動輪のトルクを一律に抑制するのではなく、スリップの発生を回避しながら前進し続けることができるように各駆動輪のトルクをそれぞれに制御することができる。
(2) The learned model is learned by reinforcement learning that gives a larger reward r as the distance traveled without any driving wheels slipping increases. Therefore, according to the
(3)上記構成によれば、上記の(1)及び(2)を同時に実現することにより、走破性を確保しつつ、ドライブラインへの過大な負荷の入力を抑制することができる。
本実施形態は、以下のように変更して実施することができる。本実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
(3) According to the above configuration, by realizing the above (1) and (2) at the same time, it is possible to suppress the input of an excessive load to the driveline while ensuring the running performance.
This embodiment can be implemented with the following modifications. This embodiment and the following modified examples can be implemented in combination with each other within a technically consistent range.
・上記の実施形態では、状態変数にアクセル開度が含まれている例を示したが、例えば、悪路走行モードにおいて予め設定した一定の速度を保つように自動的にエンジン10の出力が制御される場合には、状態変数にアクセル開度を含める必要はない。すなわち、こうした速度の制御を自動で行う悪路走行モードを実行する構成に対しても上記の実施形態と同様の強化学習済みモデルを用いた制御を適用することができる。
・In the above embodiment, an example in which the accelerator opening is included in the state variables is shown, but for example, the output of the
・上記の実施形態では、制御装置100は一つの装置として図示されているが、エンジン10を制御するエンジン制御装置、変速機20を制御する変速機制御装置、各駆動輪への駆動力の配分を制御する4WD制御装置、各ブレーキを制御するブレーキ制御装置などに分かれていてもよい。この場合、4WD制御装置とブレーキ制御装置が学習済みモデルを利用して算出した操作量に基づいて駆動力の配分及び制動力を制御し、協働によって各駆動輪のトルクを制御することになる。
In the above embodiment, the
・天気情報は、路面の状況を推定するために利用できる情報であるため、通信装置を備え、現在地点の天気情報を取得してその天気情報を状態変数の1つとして入力するようにしてもよい。 ・Since weather information is information that can be used to estimate road conditions, even if a communication device is provided, the weather information for the current location is acquired, and the weather information is input as one of the state variables. good.
・カメラ70は、ステレオカメラであってもよい。ステレオカメラを用いれば、路面の凹凸の大きさや凹凸までの距離をより正確に把握できるようになる。
・カメラ70の他に、光を用いて物体との距離を測定するライダーや、音波によって物体を探知するソナーなどを用いて状態変数の1つとしての路面情報データを収集するようにしてもよい。
- The
・In addition to the
・上記の実施形態では、各駆動輪のトルクを制御するための機構として左右の後輪への駆動力の配分を変更することのできる電子制御カップリングを備えている例を示した。各駆動輪のブレーキをそれぞれ個別に制御することができれば、各駆動輪のトルクを制御することができる。そのため、こうした駆動力の配分を変更する機構を備えていない車両に対しても上記の実施形態と同様に強化学習済みのモデルを用いたトルクの制御を適用することもできる。 - In the above embodiment, an example is shown in which an electronically controlled coupling is provided as a mechanism for controlling the torque of each driving wheel, which can change the distribution of the driving force to the left and right rear wheels. If the brakes of each drive wheel can be individually controlled, the torque of each drive wheel can be controlled. Therefore, torque control using a model that has undergone reinforcement learning can also be applied to a vehicle that does not have such a mechanism for changing the distribution of driving force, as in the above embodiment.
・駆動輪のトルクを個別に制御することにより、駆動輪のスリップを抑制することができる。そのため、前輪駆動車や後輪駆動車にも上記の実施形態と同様に強化学習済みのモデルを用いたトルクの制御を適用することができる。 ・Slipping of the drive wheels can be suppressed by individually controlling the torque of the drive wheels. Therefore, torque control using a reinforcement learning model can be applied to a front-wheel drive vehicle and a rear-wheel drive vehicle as in the above embodiment.
・上記の実施形態においては、行動価値関数Qに基づいてgreedy方策で行動aを選択して試行しながら、行動価値関数Qを最適化することにより、最適化された行動価値関数Qに対するgreedy方策が最適方策であるとみなしている。この処理は、いわゆる価値反復法であるが、他の手法、例えば、方策反復法によって学習が行われてもよい。さらに、状態s、行動a、報酬rなどの各種変数においては、各種の正規化が行われてもよい。 - In the above embodiment, the greedy policy for the optimized action-value function Q is selected by optimizing the action-value function Q while trying to select and try the action a with the greedy policy based on the action-value function Q. is considered to be the optimal policy. This process is a so-called value iteration method, but learning may be performed by other methods, such as policy iteration method. Furthermore, various normalizations may be performed on various variables such as state s, action a, and reward r.
・機械学習の手法としては、種々の手法を採用であり、行動価値関数Qに基づいたε-greedy方策によって試行が行われてもよい。また、強化学習の手法としても上述のようなQ学習に限定されず、SARSA等の手法が用いられてもよい。また、方策のモデルと行動価値関数Qのモデルを別々にモデル化した手法、例えば、Actor-Criticアルゴリズムが利用されてもよい。 ・Various methods are adopted as machine learning methods, and trials may be performed by the ε-greedy policy based on the action value function Q. Also, the method of reinforcement learning is not limited to Q-learning as described above, and a method such as SARSA may be used. Alternatively, a technique in which the policy model and the action-value function Q model are separately modeled, such as the Actor-Critic algorithm, may be used.
・車両制御装置としては、処理回路120と記憶装置110とを備えて、ソフトウェア処理を実行するものに限らない。たとえば、上記実施形態においてソフトウェア処理されたものの少なくとも一部を、ハードウェア処理する専用のハードウェア回路(たとえばASIC等)を備えてもよい。すなわち、車両制御装置は、以下の(a)~(c)のいずれかの構成であればよい。(a)処理の全てを、プログラムに従って実行する処理回路と、プログラムを記憶するROM等の記憶装置とを備える。(b)処理の一部をプログラムに従って実行する処理回路及び記憶装置と、残りの処理を実行する専用のハードウェア回路とを備える。(c)上記処理の全てを実行する専用のハードウェア回路を備える。ここで、処理回路及び記憶装置を備えたソフトウェア実行装置や、専用のハードウェア回路は複数であってもよい。
- The vehicle control device is not limited to one that includes the
100…制御装置
110…記憶装置
120…処理回路
10…エンジン
20…変速機
21…フロントディファレンシャル
30…トランスファ
31…フロントディスコネクト機構
40…リヤディファレンシャル
41…リヤディスコネクト機構
42R…電子制御カップリング
42L…電子制御カップリング
60RF…ブレーキ
60LF…ブレーキ
60RR…ブレーキ
60LR…ブレーキ
70…カメラ
76RF…右フロント速度センサ
76LF…左フロント速度センサ
76RR…右リヤ速度センサ
76LR…左リヤ速度センサ
77…GPS装置
DESCRIPTION OF
Claims (1)
車両前方の路面の画像から抽出した路面情報データを含む状態変数が入力されると前記機構の制御量を操作する行動を決定して出力する学習済みモデルを記憶した記憶装置と、
前記学習済みモデルに前記状態変数を入力することによって出力された前記行動に基づいて前記制御量を操作し、前記機構を制御する処理回路と、を備え、
前記学習済みモデルは、前記車両がいずれの駆動輪もスリップさせずに走行した距離が長いほど大きな報酬を付与する強化学習によって学習したモデルである
車両制御装置。 A vehicle control device for controlling a vehicle equipped with a mechanism capable of individually controlling the torque of each driving wheel,
a storage device storing a learned model that determines and outputs an action for manipulating the control amount of the mechanism when state variables including road surface information data extracted from an image of the road surface in front of the vehicle are input;
a processing circuit that manipulates the control amount based on the behavior output by inputting the state variables to the trained model and controls the mechanism;
The learned model is a model learned by reinforcement learning that gives a greater reward as the vehicle travels a longer distance without slipping any driving wheels.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021035841A JP2022135788A (en) | 2021-03-05 | 2021-03-05 | vehicle controller |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021035841A JP2022135788A (en) | 2021-03-05 | 2021-03-05 | vehicle controller |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022135788A true JP2022135788A (en) | 2022-09-15 |
Family
ID=83231271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021035841A Pending JP2022135788A (en) | 2021-03-05 | 2021-03-05 | vehicle controller |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022135788A (en) |
-
2021
- 2021-03-05 JP JP2021035841A patent/JP2022135788A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10414404B2 (en) | Vehicle control system and method for controlling a vehicle | |
US10328942B2 (en) | Motor vehicle controller and method | |
US8078381B2 (en) | Vehicle speed control apparatus in accordance with curvature of vehicle trajectory | |
JP7151179B2 (en) | Lane change estimation device and lane change estimation method, vehicle control device and vehicle control method | |
KR101509693B1 (en) | System and method of determining short term driving tendency of driver | |
CN105452043A (en) | Driveline and method of controlling a driveline | |
JP2004224258A (en) | Braking control device | |
CN101084143B (en) | Vehicle control apparatus | |
CN105984466B (en) | Traction control system for vehicle | |
AU2015273564B2 (en) | Vehicle control system and method | |
CN108216212B (en) | System and method for controlling vehicle turning | |
JP5316576B2 (en) | Vehicle control device | |
JP2017501068A (en) | Driveline and driveline control method | |
WO2012152165A1 (en) | Gear shifting control method and device and control system for engineering machinery | |
KR101484218B1 (en) | Device and method of controlling shift for vehicle | |
JP2022135788A (en) | vehicle controller | |
JP5336484B2 (en) | Processing method of signal transmitted from position sensor of automobile control member | |
KR20190012547A (en) | Torque distribution control device of 4wd vehicle based driver shift pattern and response speed and contorl method thereof | |
RU2550621C2 (en) | Device and method for torque distribution front and rear axle of four-wheel vehicle | |
JP6380311B2 (en) | Driving force control device | |
SE539497C2 (en) | Method and system for controlling a clutch of a vehicle | |
JP2022174435A (en) | Control device for vehicle | |
WO2022264929A1 (en) | Control device and control method | |
EP2952402A2 (en) | Method and system for adaptation of the propulsion of a vehicle relative a preceding vehicle | |
SE2351032A1 (en) | Handling a maximum torque of a power train |