JP2021109508A - 車両用制御装置、車両制御方法及び車両用制御プログラム - Google Patents

車両用制御装置、車両制御方法及び車両用制御プログラム Download PDF

Info

Publication number
JP2021109508A
JP2021109508A JP2020002013A JP2020002013A JP2021109508A JP 2021109508 A JP2021109508 A JP 2021109508A JP 2020002013 A JP2020002013 A JP 2020002013A JP 2020002013 A JP2020002013 A JP 2020002013A JP 2021109508 A JP2021109508 A JP 2021109508A
Authority
JP
Japan
Prior art keywords
vehicle
performance
index
value
traveling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020002013A
Other languages
English (en)
Other versions
JP7211375B2 (ja
Inventor
洋介 橋本
Yosuke Hashimoto
洋介 橋本
章弘 片山
Akihiro Katayama
章弘 片山
裕太 大城
Yuta Oshiro
裕太 大城
和紀 杉江
Kazuki Sugie
和紀 杉江
尚哉 岡
Naoya Oka
尚哉 岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2020002013A priority Critical patent/JP7211375B2/ja
Priority to US17/136,253 priority patent/US11922735B2/en
Priority to CN202110007665.5A priority patent/CN113176739B/zh
Publication of JP2021109508A publication Critical patent/JP2021109508A/ja
Application granted granted Critical
Publication of JP7211375B2 publication Critical patent/JP7211375B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • G07C5/008Registering or indicating the working of vehicles communicating information to a remotely located station
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/042Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
    • G05B19/0423Input/output
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • G07C5/02Registering or indicating driving, working, idle, or waiting time only
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • G07C5/08Registering or indicating performance data other than driving, working, idle, or waiting time, with or without registering driving, working, idle or waiting time
    • G07C5/0808Diagnosing performance data
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • G07C5/08Registering or indicating performance data other than driving, working, idle, or waiting time, with or without registering driving, working, idle or waiting time
    • G07C5/0816Indicating performance data, e.g. occurrence of a malfunction
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/25Pc structure of the system
    • G05B2219/25257Microcontroller

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
  • Traffic Control Systems (AREA)
  • Combined Controls Of Internal Combustion Engines (AREA)
  • Control Of Vehicle Engines Or Engines For Specific Uses (AREA)

Abstract

【課題】車両の走行環境を考慮した判定を行うことができるようにすること。【解決手段】制御装置70は、他の車両との直接通信である車車間通信の機能を有する。制御装置70のCPU72は、自車両の走行性能に関する指標である走行性能指標を導出する指標導出処理と、車車間通信によって、他の車両から当該他の車両の走行性能指標を受信する指標受信処理と、他の車両の走行性能指標と、自車両の走行性能指標とを比較することにより、自車両の走行性能が他の車両の走行性能よりも低いか否かを判定する性能判定処理とを実行する。【選択図】図1

Description

本発明は、車両用制御装置、車両制御方法及び車両用制御プログラムに関する。
特許文献1には、内燃機関の異常診断を行う機能を有する制御装置の一例が記載されている。この制御装置では、運転者によってアクセルペダルが操作されている場合、そのアクセル開度が第1所定開度以上であって、且つ要求トルクに対する内燃機関の実際の出力トルクの比率が所定値未満である状態の継続時間が計測される。そして、当該継続時間が所定時間を越えた状態で、アクセル開度が、第1所定開度よりも大きい第2所定開度以上であるときに、内燃機関に異常が発生しているとの診断がなされるようになっている。
上記のような異常診断に用いられる各種の閾値、すなわち第1所定開度、第2所定開度及び所定時間は、予め設定されたものである。
特開2017−194048号公報
上記各種の閾値は、一般的に、様々な環境で車両が走行することを想定して一義的に決められる。そのため、このように決められた閾値は、そのときの車両の走行環境に最適な値ではない可能性がある。そのため、上記のような閾値を用いた異常診断の結果が、そのときの車両の走行環境を考慮した結果ではない可能性がある。
以下、上記課題を解決するための手段およびその作用効果について記載する。
1.他の車両との直接通信である車車間通信の機能を有する車両に適用される車両用制御装置であって、実行装置を備え、前記実行装置は、自車両の走行性能に関する指標である走行性能指標を導出する指標導出処理と、前記車車間通信によって、前記他の車両から当該他の車両の前記走行性能指標を受信する指標受信処理と、前記他の車両の前記走行性能指標と、前記自車両の前記走行性能指標とを比較することにより、前記自車両の走行性能が前記他の車両の走行性能よりも低いか否かを判定する性能判定処理と、を実行する車両用制御装置である。
車車間通信は、互いに近くを走行する車両同士の無線通信である。そのため、自車両と車車間通信を行うことのできる他の車両は、自車両の周りを走行している。すなわち、車車間通信を行う2台の車両は、同じ走行環境で走行していると推測できる。そこで、上記構成では、自車両の周りを走行する他の車両から当該他の車両の走行性能指標を、車車間通信によって受信し、受信した他の車両の走行性能指標と、自車両の走行性能指標とを比較することにより、自車両の走行性能が他の車両の走行性能よりも低いか否かの判定を行うようにしている。このように走行環境が同じである他の車両の走行性能指標と、自車両の走行性能指標とを用いて比較することにより、そのときの車両の走行環境を考慮した判定を行うことができるようになる。
2.前記走行性能指標によって示される車両の走行性能に影響を与える車両の状態と、前記車両の電子機器の操作に関する変数である行動変数との関係を規定する関係規定データを記憶する記憶装置を備え、前記実行装置は、前記車両の状態を検出するセンサの検出値を取得する取得処理と、前記検出値と前記関係規定データとによって定まる前記行動変数の値に基づいて前記電子機器を操作する操作処理と、前記検出値が、前記自車両の走行性能が基準性能よりも高いことを示す値であるときには、前記検出値が、前記自車両の走行性能が前記基準性能よりも高くないことを示す値であるときよりも大きい報酬を与える報酬算出処理と、前記検出値、前記電子機器の操作に用いられた前記行動変数の値、及び当該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、を実行するようになっており、前記更新写像は、前記関係規定データに従って前記電子機器が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものであり、前記実行装置は、前記報酬算出処理では、前記自車両の走行性能が前記基準性能よりも高いことを示す値であるときに与える報酬を、前記性能判定処理で前記自車両の走行性能が前記他の車両の走行性能よりも低いと判定した場合には、前記自車両の走行性能が前記他の車両の走行性能よりも低いと判定していない場合よりも大きい値とする上記1に記載の車両用制御装置である。
上記構成では、電子機器の操作に伴う報酬を算出することにより、当該操作によってどのような報酬が得られるかを把握できる。そして、得られた報酬に基づき、強化学習に従った更新写像によって関係規定データを更新することにより、車両の状態と行動変数との関係を車両の走行において適切な関係に設定できる。そのため、車両の状態と行動変数との関係を車両の走行において適正化することが可能となる。
ところで、他の車両の走行性能指標と自車両の走行性能指標との比較によって、自車両の走行性能が他の車両の走行性能よりも低いと判定された場合、自車両では、車両の状態と行動変数との関係の適正化が他の車両よりも遅れている可能性がある。そこで、上記構成では、自車両の走行性能が他の車両の走行性能よりも低いと判定された場合では、自車両の走行性能が基準性能よりも高いときに与える報酬を、自車両の走行性能が他の車両の走行性能よりも低いと判定されていない場合よりも大きくする。これにより、車両の状態と行動変数との関係の適正化が他の車両よりも遅れている可能性がある場合に、関係規定データの更新速度を高め、当該関係の適正化を早めることができる。その結果、自車両の走行性能を向上できる。
3.前記走行性能指標によって示される車両の走行性能に影響を与える車両の状態と、前記車両の電子機器の操作に関する変数である行動変数との関係を規定する関係規定データを記憶する記憶装置を備え、前記実行装置は、前記車両の状態を検出するセンサの検出値を取得する取得処理と、前記検出値と前記関係規定データとによって定まる前記行動変数の値に基づいて前記電子機器を操作する操作処理と、前記検出値が、前記自車両の走行性能が基準性能よりも高いことを示す値であるときには、前記検出値が、前記自車両の走行性能が前記基準性能よりも高くないことを示す値であるときよりも大きい報酬を与える報酬算出処理と、前記検出値、前記電子機器の操作に用いられた前記行動変数の値、及び当該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、前記性能判定処理で前記自車両の走行性能が前記他の車両の走行性能よりも低いと判定したときには、前記他の車両から前記関係規定データを受信し、前記記憶装置に記憶されている前記関係規定データを、前記他の車両から受信した前記関係規定データに置き換えるデータ置換処理と、を実行し、前記更新写像は、前記関係規定データに従って前記電子機器が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものである上記1に記載の車両用制御装置である。
他の車両の走行性能指標と自車両の走行性能指標との比較によって、自車両の走行性能が他の車両の走行性能よりも低いと判定された場合、自車両では、車両の状態と行動変数との関係の適正化が他の車両よりも遅れている可能性がある。そこで、上記構成では、自車両の走行性能が他の車両の走行性能よりも低いと判定された場合、自車両の記憶装置に記憶されている関係規定データが、当該他の車両で用いられている関係規定データに置き換えられる。これにより、関係規定データの置き換え前よりも自車両の走行性能を向上できる。
4.前記実行装置は、前記データ置換処理の実行によって前記記憶装置の前記関係規定データを置き換えても前記自車両の走行性能が向上しないときには、前記自車両に異常が発生している旨を報知する異常報知処理を実行する上記3に記載の車両用制御装置。
自車両の記憶装置に記憶されている関係規定データを、他の車両で用いられている関係規定データに置き換えても自車両の走行性能が向上しない場合、自車両の走行性能の低い要因が車両の状態と行動変数との関係の適正化の遅れではないと考えられる。そこで、上記構成では、関係規定データの置き換えを行った以降でも自車両の走行性能が向上しないときには、自車両の構成部品に故障などの異常が発生している可能性があるため、自車両に異常が発生している旨が報知される。これにより、車両用制御装置を搭載する車両の修理工場などへの入庫を、当該車両の所有者に促すことができる。
5.前記実行装置は、前記指標導出処理では、車両のエネルギの利用効率に関する指標を前記走行性能指標として導出し、前記性能判定処理では、前記自車両のエネルギの利用効率が前記他の車両のエネルギの利用効率よりも低いか否かを判定する上記1〜4のうち何れか一項に記載の車両用制御装置である。
6.前記実行装置は、前記指標導出処理では、車両の加速性能に関する指標を前記走行性能指標として導出し、前記性能判定処理では、前記自車両の加速性能が前記他の車両の加速性能よりも低いか否かを判定する上記1〜4のうち何れか一項に記載の車両用制御装置である。
7.前記実行装置は、前記自車両の積載量の推定値を取得する積載量取得処理と、前記車車間通信によって前記他の車両の積載量の推定値を受信する積載量受信処理と、を実行し、前記他の車両の積載量の推定値と前記自車両の積載量の推定値との差分が積載量差分判定値未満であることを条件に、前記性能判定処理を実行する上記1〜6のうち何れか一項に記載の車両用制御装置である。
積載量の異なる2台の車両で走行性能指標を比較した場合、積載量の少ない車両の走行性能が、積載量の多い車両の走行性能よりも高くなりやすい。そこで、上記構成では、他の車両の積載量の推定値と自車両の積載量の推定値との差分が積載量差分判定値未満であることを条件に、性能判定処理が実行されるようになっている。言い換えると、当該差分が積載量差分判定値以上であるときには、性能判定処理が実行されない。これにより、自車両と他の車両とで積載量が大きく異なると判断できるときに性能判定処理が実行されることを抑制できる。
8.前記実行装置は、前記自車両の走行距離を取得する走行距離取得処理と、前記車車間通信によって前記他の車両の走行距離を受信する走行距離受信処理と、を実行し、前記他の車両の走行距離と前記自車両の走行距離との差分が距離差分判定値未満であることを条件に、前記性能判定処理を実行する上記1〜7のうち何れか一項に記載の車両用制御装置である。
車両の走行距離が長いほど、車両の構成部品の特性の経時変化の度合いが大きいと推測できる。そして、車両の構成部品の特性の経時変化の度合いが大きいほど、車両の性能特性が低くなりやすいと推測できる。そこで、上記構成では、他の車両の走行距離と自車両の走行距離との差分が距離差分判定値未満であることを条件に、性能判定処理が実行されるようになっている。言い換えると、当該差分が距離差分判定値以上であるときには、性能判定処理が実行されない。これにより、自車両の構成部品の特性の経時変化の度合いが他の車両の構成部品の特性の経時変化の度合いと大きく異なる可能性があるときに性能判定処理が実行されることを抑制できる。
9.自車両の周りで走行する他の車両との直接通信である車車間通信の機能を有する車両に適用され、前記車両の実行装置に、前記自車両の走行性能に関する指標である走行性能指標を導出する指標導出処理と、前記車車間通信によって、前記走行性能指標を前記他の車両から受信する指標受信処理と、前記他の車両の前記走行性能指標と前記自車両の前記走行性能指標とを比較することにより、前記自車両の走行性能が前記他の車両の走行性能よりも低いか否かを判定する性能判定処理と、を実行させる車両制御方法である。
上記の方法によれば、上記各処理を車両の実行装置に実行させることにより、上記車両用制御装置と同等の作用効果を得ることができる。
10.自車両の周りを走行する他の車両との直接通信である車車間通信の機能を有する車両の実行装置で実行される車両用制御プログラムであって、前記実行装置に、自車両の走行性能に関する指標である走行性能指標を導出する指標導出処理と、前記車車間通信によって、前記走行性能指標を前記他の車両から受信する指標受信処理と、前記他の車両の前記走行性能指標と前記自車両の前記走行性能指標とを比較することにより、前記自車両の走行性能が前記他の車両の走行性能よりも低いか否かを判定する性能判定処理と、を実行させる車両用制御プログラムである。
上記構成によれば、当該車両用制御プログラムを車両にインストールし、上記各処理を実行装置に実行させることにより、上記車両用制御装置と同等の作用効果を得ることができる。
第1実施形態にかかる制御装置および駆動系を示す図。 同制御装置を備える車両同士で車車間通信を行う様子を模式的に示すブロック図。 同制御装置が実行する処理の手順を示すフローチャート。 同制御装置が実行する更新処理を示すフローチャート。 他の車両に送信するための情報を導出する際に同制御装置が実行する処理の手順を示すフローチャート。 他の車両に情報を送信する際に同制御装置が実行する処理の手順を示すフローチャート。 自車両の走行性能が他の車両の走行性能よりも低いか否かを判定する際に同制御装置が実行する処理の手順を示すフローチャート。 異常報知処理を実行する際に同制御装置が実行する処理の手順を示すフローチャート。 第2実施形態にかかる制御装置において、他の車両に送信するための情報を導出する際に実行される処理の手順を示すフローチャート。
(第1実施形態)
以下、車両用制御装置及び車両制御方法の第1実施形態について、図面を参照しつつ説明する。
図1には、車両用制御装置である制御装置70と、制御装置70を備える車両VCの駆動系の構成が図示されている。
図1に示すように、車両VCは、車両VCの推力生成装置として内燃機関10を備えている。内燃機関10の吸気通路12には、上流側から順にスロットルバルブ14及び燃料噴射弁16が設けられており、吸気通路12に吸入された空気及び燃料噴射弁16から噴射された燃料は、吸気バルブ18の開弁に伴って、シリンダ20及びピストン22によって区画される燃焼室24に流入する。燃焼室24内において、燃料と空気との混合気は、点火装置26の火花放電に伴って燃焼に供され、燃焼によって生じたエネルギは、ピストン22を介してクランク軸28の回転エネルギに変換される。燃焼に供された混合気は、排気バルブ30の開弁に伴って、排気として排気通路32に排出される。排気通路32には、排気を浄化する後処理装置としての触媒34が設けられている。
クランク軸28には、ロックアップクラッチ42を備えたトルクコンバータ40を介して、変速装置50の入力軸52が機械的に連結可能とされている。変速装置50は、入力軸52の回転速度と出力軸54の回転速度との比である変速比を可変とする装置である。出力軸54には、駆動輪60が機械的に連結されている。
制御装置70は、内燃機関10を制御対象とし、その制御量であるトルクや排気成分比率などを制御すべく、スロットルバルブ14、燃料噴射弁16及び点火装置26などの内燃機関10の操作部を操作する。また、制御装置70は、トルクコンバータ40を制御対象とし、ロックアップクラッチ42の係合状態を制御すべくロックアップクラッチ42を操作する。また、制御装置70は、変速装置50を制御対象とし、その制御量としての変速比を制御すべく変速装置50を操作する。なお、図1には、スロットルバルブ14、燃料噴射弁16、点火装置26、ロックアップクラッチ42、及び変速装置50のそれぞれの操作信号MS1〜MS5を記載している。このように制御装置70からの操作信号MS1〜MS5が入力される操作部の各々が、「電子機器」の一例である。
制御装置70は、制御量の制御のために、エアフローメータ80によって検出される吸入空気量Ga、スロットルセンサ82によって検出されるスロットルバルブ14の開口度であるスロットル開口度TA、及び、クランク角センサ84の出力信号Scrを参照する。また、制御装置70は、アクセルセンサ88によって検出されるアクセルペダル86の踏み込み量であるアクセル操作量PA、及び、加速度センサ90によって検出される車両VCの前後方向の加速度Gx、を参照する。
制御装置70は、CPU72、ROM74、電気的に書き換え可能な不揮発性メモリでる記憶装置76、通信機77及び周辺回路78を備え、それらがローカルネットワーク79を介して通信可能とされている。ここで、周辺回路78は、内部の動作を規定するクロック信号を生成する回路、電源回路及びリセット回路などを含む。
ROM74には、制御プログラム74a及び学習プログラム74bが記憶されている。一方、記憶装置76には、関係規定データDRが記憶されている。関係規定データDRとは、アクセル操作量PAと、スロットル開口度TAの指令値であるスロットル開口度指令値TA*及び点火装置26の遅角量aopとの関係を規定するものである。スロットル開口度指令値TA*及び遅角量aopが、行動変数の一例である。ここで、遅角量aopは、予め定められた基準点火時期に対する遅角量であり、基準点火時期は、MBT点火時期とノック限界点とのうちの遅角側の時期である。MBT点火時期は、最大トルクの得られる点火時期(最大トルク点火時期)である。また、ノック限界点は、ノック限界の高い高オクタン価燃料の使用時に、想定される最良の条件下で、ノッキングを許容できるレベル以内に収めることのできる点火時期の進角限界値である。また、記憶装置76には、トルク出力写像データDTが記憶されている。トルク出力写像データDTによって規定されるトルク出力写像は、クランク軸28の回転速度NE、充填効率η、及び点火時期aigを入力とし、トルクTrqを出力する写像である。
また、図2に示すように、通信機77は、車両間での直接通信である車車間通信を行うためのものである。車車間通信とは、サーバなどを介することなく車両間で直接通信することであって、且つ互いに近くを走行する車両同士の無線通信である。つまり、通信機77を搭載する車両VCは、車車間通信を行う機能を有する車両であるといえる。以降の記載においては、自車両を「自車両VC1」とし、自車両VC1と車車間通信を行う車両を「他の車両VC2」ということもある。
自車両VC1の制御装置70は、車車間通信によって、他の車両VC2の制御装置70と各種の情報の送受信を行うことができる。なお、車車間通信を行える場合、自車両VC1と車車間通信を行うことのできる他の車両VC2は、自車両VC1の周りを走行している。すなわち、車車間通信を行う2台の車両は、同じ走行環境で走行しているといえる。
図3に、制御装置70が実行する処理の手順を示す。図3に示す処理は、ROM74に記憶された制御プログラム74a及び学習プログラム74bをCPU72が例えば所定周期で繰り返し実行することにより実現される。なお、以下では、先頭に「S」が付与された数字によって各処理のステップ番号を示す。
図3に示す一連の処理において、CPU72は、状態sとして、アクセル操作量PAの6個のサンプリング値「PA(1),PA(2),…PA(6)」からなる時系列データを取得する(S10)。ここで、時系列データを構成する各サンプリング値は、互いに異なるタイミングにおいてサンプリングされたものである。本実施形態では、一定のサンプリング周期でサンプリングされる場合の、互いに時系列的に隣り合う6個のサンプリング値によって時系列データを構成する。
次にCPU72は、関係規定データDRが定める方策πに従い、S10の処理によって取得した状態sに応じたスロットル開口度指令値TA*及び遅角量aopからなる行動aを設定する(S12)。
本実施形態において、関係規定データDRは、行動価値関数Q及び方策πを定めるデータである。本実施形態において、行動価値関数Qは、状態s及び行動aの8次元の独立変数に応じた期待収益の値を示すテーブル型式の関数である。また、方策πは、状態sが与えられたときに、独立変数が与えられた状態sとなる行動価値関数Qのうち最大となる行動a(グリーディ行動)を優先的に選択しつつも、所定の確率で、それ以外の行動aを選択する規則を定める。
詳しくは、本実施形態にかかる行動価値関数Qの独立変数がとりうる値の数は、状態s及び行動aのとりうる値の全組み合わせのうちの一部が、人の知見などによって削減されたものである。すなわち、例えばアクセル操作量PAの時系列データのうち隣接する2つのサンプリング値の1つがアクセル操作量PAの最小値となりもう1つが最大値となるようなことは、人によるアクセルペダル86の操作からは生じえないとして、行動価値関数Qが定義されていない。本実施形態では、人の知見などに基づく次元削減によって、行動価値関数Qを定義する状態sの取りうる値を、10の4乗個以下、より望ましくは10の3乗個以下に制限する。
次にCPU72は、設定されたスロットル開口度指令値TA*及び遅角量aopに基づき、スロットルバルブ14に操作信号MS1を出力してスロットル開口度TAを操作するとともに、点火装置26に操作信号MS3を出力して点火時期を操作する(S14)。ここで、本実施形態では、スロットル開口度TAをスロットル開口度指令値TA*にフィードバック制御することを例示することから、スロットル開口度指令値TA*が同一の値であっても、操作信号MS1が互いに異なる信号となりうるものである。また、例えば周知のノッキングコントロール(KCS)などがなされる場合、点火時期は、基準点火時期を遅角量aopにて遅角させた値がKCSにてフィードバック補正された値とされる。ここで、基準点火時期は、CPU72により、クランク軸28の回転速度NE及び充填効率ηに応じて可変設定される。なお、回転速度NEは、クランク角センサ84の出力信号Scrに基づきCPU72によって算出される。また、充填効率ηは、回転速度NE及び吸入空気量Gaに基づきCPU72によって算出される。
次にCPU72は、内燃機関10のトルクTrq、内燃機関10に対するトルク指令値Trq*、及び加速度Gxを取得する(S16)。ここで、CPU72は、トルクTrqを、回転速度NE、充填効率η及び点火時期をトルク出力写像に入力することによって算出する。また、CPU72は、トルク指令値Trq*を、アクセル操作量PAに応じて設定する。
次にCPU72は、過渡フラグFが「1」であるか否かを判定する(S18)。過渡フラグFは、「1」である場合に過渡運転時であることを示し、「0」である場合に過渡運転時ではないことを示す。CPU72は、過渡フラグFが「0」であると判定する場合(S18:NO)、アクセル操作量PAの単位時間当たりの変化量ΔPAの絶対値が所定量ΔPAth以上であるか否かを判定する(S20)。ここで、変化量ΔPAは、例えば、S20の処理の実行タイミングにおける最新のアクセル操作量PAと、同タイミングに対して単位時間だけ前におけるアクセル操作量PAとの差とすればよい。
CPU72は、変化量ΔPAの絶対値が所定量ΔPAth以上であると判定する場合(S20:YES)、過渡フラグFに「1」を代入する(S22)。
これに対し、CPU72は、過渡フラグFが「1」であると判定する場合(S18:YES)、S22の処理の実行から所定期間が経過したか否かを判定する(S24)。ここで、所定期間は、アクセル操作量PAの単位時間当たりの変化量ΔPAの絶対値が所定量ΔPAthよりも小さい規定量以下となる状態が所定時間継続するまでの期間とする。CPU72は、所定期間が経過したと判定する場合(S24:YES)、過渡フラグFに「0」を代入する(S26)。
CPU72は、S22,S26の処理が完了する場合、1つのエピソードが終了したとして、強化学習によって行動価値関数Qを更新する(S28)。
図4に、S28の処理の詳細を示す。
図4に示す一連の処理において、CPU72は、直近に終了されたエピソード中のトルク指令値Trq*、トルクTrq及び加速度Gxの3つのサンプリング値の組からなる時系列データと、状態s及び行動aの時系列データと、を取得する(S30)。ここで、直近のエピソードは、S22の処理に続いてS30の処理がなされる場合には、過渡フラグFが継続して「0」となっていた期間であり、S26の処理に続いてS30の処理がなされる場合には、過渡フラグFが継続して「1」となっていた期間である。
図4には、カッコの中の数字が異なるものが、異なるサンプリングタイミングにおける変数の値であることを示す。例えば、トルク指令値Trq*(1)とトルク指令値Trq*(2)とは、サンプリングタイミングが互いに異なるものである。また、直近のエピソードに属する行動aの時系列データを、行動集合Ajとし、同エピソードに属する状態sの時系列データを、状態集合Sjと定義する。
次にCPU72は、直近のエピソードに属する任意のトルクTrqとトルク指令値Trq*との差の絶対値が規定量ΔTrq以下である旨の条件(ア)と、加速度Gxが下限値GxL以上であって上限値GxH以下である旨の条件(イ)との論理積が真であるか否かを判定する(S32)。
ここで、CPU72は、規定量ΔTrqを、エピソードの開始時におけるアクセル操作量PAの単位時間当たりの変化量ΔPAによって可変設定する。すなわち、CPU72は、エピソードの開始時におけるアクセル操作量PAの単位時間当たりの変化量ΔPAに基づき過渡時に関するエピソードであると判定する場合、定常時の場合と比較して、規定量ΔTrqを大きい値に設定する。
また、CPU72は、下限値GxLを、エピソードの開始時におけるアクセル操作量PAの変化量ΔPAによって可変設定する。すなわち、CPU72は、過渡時に関するエピソードであって且つ変化量ΔPAが正である場合には、定常時に関するエピソードの場合と比較して、下限値GxLを大きい値に設定する。また、CPU72は、過渡時に関するエピソードであって且つ変化量ΔPAが負である場合には、定常時に関するエピソードの場合と比較して、下限値GxLを小さい値に設定する。
また、CPU72は、上限値GxHを、エピソードの開始時におけるアクセル操作量PAの単位時間当たりの変化量ΔPAによって可変設定する。すなわち、CPU72は、過渡時に関するエピソードであって且つ変化量ΔPAが正である場合には、定常時に関するエピソードの場合と比較して、上限値GxHを大きい値に設定する。また、CPU72は、過渡時に関するエピソードであって且つ変化量ΔPAが負である場合には、定常時に関するエピソードの場合と比較して、上限値GxHを小さい値に設定する。
CPU72は、論理積が真であると判定する場合(S32:YES)、報酬rに正の値αを代入する一方(S34)、偽であると判定する場合(S32:NO)、報酬rに負の値βを代入する(S36)。例えば、負の値βは、正の値αと「−1」との積である。CPU72は、S34,S36の処理が完了する場合、図1に示した記憶装置76に記憶されている関係規定データDRを更新する。本実施形態では、εソフト方策オン型モンテカルロ法を用いる。
すなわち、CPU72は、上記S30の処理によって読み出した各状態と対応する行動との組によって定まる収益R(Sj,Aj)に、それぞれ、報酬rを加算する(S38)。ここで、「R(Sj,Aj)」は、状態集合Sjの要素の1つを状態とし行動集合Ajの要素の1つを行動とする収益Rを総括した記載である。次に、上記S30の処理によって読み出した各状態と対応する行動との組によって定まる収益R(Sj,Aj)のそれぞれについて、平均化して対応する行動価値関数Q(Sj,Aj)に代入する(S40)。ここで、平均化は、S38の処理がなされた回数に所定数を加算した値によって、S38の処理によって算出された収益Rを除算する処理とすればよい。なお、収益Rの初期値は、対応する行動価値関数Qの初期値とすればよい。
次にCPU72は、上記S30の処理によって読み出した状態について、それぞれ、対応する行動価値関数Q(Sj,A)のうち、最大値となるときのスロットル開口度指令値TA*及び遅角量aopの組である行動を、行動Aj*に代入する(S42)。ここで、「A」は、とりうる任意の行動を示す。なお、行動Aj*は、上記S30の処理によって読み出した状態の種類に応じて各別の値となるものであるが、ここでは、表記を簡素化して、同一の記号にて記載している。
次にCPU72は、上記S30の処理によって読み出した状態のそれぞれについて、対応する方策π(Aj|Sj)を更新する(S44)。すなわち、行動の総数を、「|A|」とすると、S42によって選択された行動Aj*の選択確率を、「1−ε+ε/|A|」とする。また、行動Aj*以外の「|A|−1」個の行動の選択確率を、それぞれ「ε/|A|」とする。S44の処理は、S40の処理によって更新された行動価値関数Qに基づく処理であることから、これにより、状態sと行動aとの関係を規定する関係規定データDRが、収益Rを増加させるように更新されることとなる。
なお、CPU72は、S44の処理が完了する場合、図4に示す一連の処理を一旦終了する。
図3に戻り、CPU72は、S28の処理が完了する場合や、S20,S24の処理において否定判定する場合には、図3に示す一連の処理を一旦終了する。なお、S10〜S26の処理は、CPU72が制御プログラム74aを実行することにより実現され、S28の処理は、CPU72が学習プログラム74bを実行することにより実現される。また、車両VCの出荷時における関係規定データDRは、テストベンチで車両の走行を模擬するなどしつつ図3に示した処理と同様の処理を実行することによって予め学習がなされたデータとする。
上述したように、制御装置70は、他の車両の制御装置70と各種の情報の送受信を行う機能を有している。図5には、当該他の車両に送信する情報を導出するために制御装置70が実行する処理の手順を示す。図5に示す処理は、ROM74に記憶された制御プログラム74aをCPU72が例えば所定周期で繰り返し実行することにより実現される。
図5に示す一連の処理において、CPU72は、車両VCの走行性能に関する指標である走行性能指標Idpを導出する(S50)。
本実施形態における走行性能は、車両VCの加速性能を含む。そのため、走行性能指標Idpとは、車両VCの加速性能に関する指標であるともいえる。アクセル操作量PAが変化する場合においてアクセル操作量PAに応じて設定されるトルク指令値Trq*と内燃機関10のトルクTrqとの間に乖離が生じにくい車両VCが、乖離が生じやすい車両VCよりも加速性能の高い車両であるといえる。そこで、例えばアクセル操作量PAが増加される場合においては、アクセル操作量PAの増加速度に対する内燃機関10のトルクTrqの増加速度を示す値である増加速度変化比率CRtdが走行性能指標Idpとして導出される。
なお、車両VCが定速走行している場合においては、アクセル操作量PAと、車両の速度である車速SPとの関係を、走行性能指標Idpとして導出してもよい。
次にCPU72は、車両VSの積載量である車両積載量の推定値LCを取得する(S52)。例えば、車両VSの搭乗人数が多いほど大きい値が車両積載量の推定値LCとして取得される。搭乗人数については、車両VSの座席に埋め込まれている着座センサによる検出結果を基に導出できる。また、車室内を撮像するカメラが車両VSに設けられている場合、カメラの撮像結果を基に車両VSの搭乗人数を導出することもできる。
次にCPU72は、車両VSの走行距離Milを取得する(S54)。例えば、車両VSに設けられているオドメータによる測定結果が走行距離Milとして取得される。このように走行性能指標Idp、車両積載量の推定値LC及び走行距離Milの取得が完了すると、CPU72は、図5に示す一連の処理を一旦終了する。
本実施形態では、自車両VC1の走行性能指標Idpと、自車両VC1と同一車種の他の車両VC2の走行性能指標Idpとを比較することにより、自車両VC1の走行性能が他の車両VC2の走行性能よりも低いか否かの判定が行われる。図7には、こうした判定を行うために制御装置70が実行する処理の手順を示す。図7に示す一連の処理は、ROM74に記憶された制御プログラム74aをCPU72が実行することにより実現される。
本実施形態では、車両VCの走行中では、車車間通信を行うことのできる他の車両の探索が行われている。そして、車車間通信を行うことのできる他の車両VC2を見つけた場合において、当該他の車両VC2が、自車両VC1と同一車種であることを条件に、図7に示す一連の処理が開始される。
図7に示す一連の処理において、CPU72は、車車間通信を行うことのできる他の車両VC2に対して他の車両VC2の走行性能指標Idpを要求する(S70)。この際、CPU72は、走行性能指標Idpの他に、他の車両VC2の車両積載量の推定値LC及び走行距離Milも要求する。ここで、自車両VC1の走行性能指標Idpを「走行性能指標Idp1」とし、自車両VC1の車両積載量の推定値LCを「車両積載量の推定値LC1」とし、自車両VC1の走行距離を「走行距離Mil1」とする。また、他の車両VC2の走行性能指標Idpを「走行性能指標Idp2」とし、他の車両VC2の車両積載量の推定値LCを「車両積載量の推定値LC2」とし、他の車両VC2の走行距離を「走行距離Mil2」とする。
次にCPU72は、要求に対する回答として、他の車両VC2の走行性能指標Idp2、車両積載量の推定値LC2及び走行距離Mil2を受信したか否かを判定する(S72)。回答の受信が完了していない場合(S72:NO)、CPU72は、回答の受信を完了するまで判定を繰り返す。一方、回答の受信が完了した場合(S72:YES)、CPU72は、比較条件が成立しているか否かを判定する(S74)。例えば、車両積載量の推定値LCの異なる2つの車両で走行性能を比較しても、比較を通じて行った判定の精度が高いとは言いがたい。また、車両の走行距離Milが長いほど、車載の各種の電子機器の特性の経年変化が進む。つまり、自車両VC1と他の車両VC2とで互いに走行距離Milが異なる場合、自車両VC1の電子機器の特性の経年変化の進行度合いは、他の車両VC2の電子機器の特性の経年変化の進行度合いと異なる可能性がある。このような状況下で、自車両VC1と他の車両VC2との走行性能を比較しても、比較を通じて行った判定の精度が高いとは言いがたい。
そこで、例えば、CPU72は、自車両VC1の車両積載量の推定値LC1と他の車両VC2の車両積載量の推定値LC2との差分ΔLCが積載量差分判定値ΔLCTh未満である旨の条件(ウ)と、自車両VC1の走行距離Mil1と他の車両VC2の走行距離Mil2との差分ΔMilが距離差分判定値ΔMilTh未満である旨の条件(エ)との論理積が真であるか否かを判定する。この場合、論理積が真であるときに、CPU72は、比較条件が成立していると判定する。一方、論理積が偽であるときに、CPU72は、比較条件が成立していないと判定する。
比較条件が成立していない場合(S74:NO)、CPU72は、図7に示す一連の処理を一旦終了する。一方、比較条件が成立している場合(S74:YES)、CPU72は、自車両VC1の走行性能指標Idp1と、他の車両VC2の走行性能指標Idp2とを比較する(S76)。
ここで、増加速度変化比率CRtdを走行性能指標Idpとして導出した場合における、自車両VC1の走行性能指標Idp1と他の車両VC2の走行性能指標Idp2との比較を説明する。アクセル操作量PAの増加速度が同程度である場合、内燃機関10のトルクTrqの増加速度が高いほど、車両VCの走行性能、すなわち加速性能が高いと推測できる。また、内燃機関10のトルクTrqの増加速度が同程度である場合、アクセル操作量PAの増加速度が低いほど、車両VCの走行性能、すなわち加速性能が高いと推測できる。そこで、CPU72は、自車両VC1の増加速度変化比率CRtdが他の車両VC2の増加速度変化比率CRtdよりも低いときには、自車両VC1の走行性能が他の車両VC2の走行性能よりも低い、すなわち自車両VC1の加速性能が他の車両VC2の加速性能よりも低いと判定する。一方、CPU72は、自車両VC1の増加速度変化比率CRtdが他の車両VC2の増加速度変化比率CRtd以上であるときには、自車両VC1の走行性能が他の車両VC2の走行性能よりも低いと判定しない、すなわち自車両VC1の加速性能が他の車両VC2の加速性能よりも低いと判定しない。
また、車両VCが定速走行しているときのアクセル操作量PAと車速SPとの関係を、走行性能指標Idpとして導出した場合における、自車両VC1の走行性能指標Idp1と他の車両VC2の走行性能指標Idp2との比較を説明する。車速SPが同程度である場合、アクセル操作量PAが低いほど、車両VCの走行性能が高いと推測できる。また、アクセル操作量PAが同程度である場合、車速SPが高いほど、車両VCの走行性能が高いと推測できる。車速SPが同程度であるにも拘わらず、アクセル操作量PAが多い場合、車両VCを加速させるべくアクセル操作量PAが更に増加された際に、車両VCの加速度Gxが大きくなりにくいと推測できる。そのため、この場合において、自車両VC1の走行性能が他の車両VC2の走行性能よりも低いと判定できるときには、自車両VC1の加速性能が他の車両VC2の加速性能よりも低い可能性ありと判定できる。
次にCPU72は、上記の比較において、自車両VC1の走行性能が他の車両VC2の走行性能よりも低いと判定したか否か、すなわち本実施形態では自車両VC1の加速性能が他の車両VC2の加速性能よりも低いと判定したか否かを判定する(S78)。自車両VC1の走行性能が他の車両VC2の走行性能よりも低いと判定していない場合(S78:NO)、CPU72は、図7に示す一連の処理を一旦終了する。一方、自車両VC1の走行性能が他の車両VC2の走行性能よりも低いと判定している場合(S78:YES)、CPU72は、他の車両VC2の制御装置70に対し、他の車両VC2の関係規定データDRを要求する(S80)。次にCPU72は、要求に対する回答として、他の車両VC2の関係規定データDRを受信したか否かを判定する(S82)。回答の受信が完了していない場合(S82:NO)、CPU72は、回答の受信が完了するまで判定を繰り返す。一方、回答の受信が完了した場合(S82:YES)、CPU72は、記憶装置76に記憶されている関係規定データDRを、他の車両VC2から受信した関係規定データDRに置き換える(S84)。データ置換が完了すると、CPU72は、図7に示す一連の処理を一旦終了する。
なお、図6には、車車間通信を通じて他の車両から情報の送信が要求された際に制御装置70が実行する処理の手順を示す。図6に示す処理は、ROM74に記憶された制御プログラム74aをCPU72が例えば所定周期で繰り返し実行することにより実現される。
図6に示す一連の処理において、CPU72は、車車間通信によって他の車両の制御装置70から情報の送信が要求されているか否かを判定する(S60)。送信が要求されていない場合(S60:NO)、CPU72は、図6に示す一連の処理を一旦終了する。一方、送信が要求されている場合(S60:YES)、CPU72は、要求された情報を、車車間通信を介して他の車両の制御装置70に送信する。例えば、走行性能指標Idp、車両積載量の推定値LC及び走行距離Milを要求された場合、CPU72は、図5に示した一連の処理で導出した走行性能指標Idp、車両積載量の推定値LC及び走行距離Milを、通信機77を介して送信する。また、関係規定データDRを要求された場合、CPU72は、記憶装置76に記憶されている関係規定データDRを、通信機77を介して送信する。こうして送信が完了すると、CPU72は、図6に示す一連の処理を一旦終了する。
図7に示した一連の処理において、自車両VC1の走行性能が他の車両VC2の走行性能よりも低いと判定された理由が、自車両VC1内での関係規定データDRの更新が遅れていたためだったとする。この場合、自車両VC1よりも走行性能の高い他の車両VC2の関係規定データDRを、自車両VC1の記憶装置76に記憶させると、その後に自車両VC1を走行させた際に自車両VC1の走行性能が向上しているはずである。言い換えると、関係規定データDRを置き換えても自車両VC1の走行性能が向上しない場合、自車両VC1の走行性能が低い要因が、自車両VC1内での関係規定データDRの更新の遅れではないと考えられる。図8には、関係規定データDRを置換した後における車両VCの走行時に制御装置70が実行する処理の手順を示す。図8に示す一連の処理は、ROM74に記憶された制御プログラム74aをCPU72が実行することにより実現される。なお、図8に示す一連の処理は、データ置換処理の実行に伴う関係規定データDRの置き換えによって、車両VCの走行性能が向上したか否かを判定できるデータを取得したことを条件に開始される。
図8に示す一連の処理において、CPU72は、データ置換処理の実行に伴う関係規定データDRの置き換えによって、車両VCの走行性能が向上したか否か、すなわち本実施形態では車両VCの加速性能が向上したかを判定する(S90)。
ここで、走行性能指標Idpとして上記の増加速度変化比率CRtdが導出される場合を例として、車両VCの走行性能指標Idpが向上したか否かの判定を説明する。関係規定データDRの置き換え前に導出された増加速度変化比率CRtdよりも関係規定データDRの置き換え後に導出された増加速度変化比率CRtdのほうが高い場合、車両VCの走行性能が向上したと判定する。一方、CPU72は、関係規定データDRの置き換え前に導出された増加速度変化比率CRtdよりも関係規定データDRの置き換え後に導出された増加速度変化比率CRtdが高くない場合、車両VCの走行性能が向上したと判定しない。
また、アクセル操作量PAと車速SPとの関係を、走行性能指標Idpとして導出される場合を例として、車両VCの走行性能指標Idpが向上したか否かの判定を説明する。例えば、関係規定データDRの置き換え前における上記関係で示される車速SPを置換前車速とした場合、CPU72は、車速SPが置換前車速と同じであるときのアクセル操作量PAと、そのときの車速SPとを、関係規定データDRの置き換え後における上記関係として導出する。そして、CPU72は、置き換え前における上記関係で示されるアクセル操作量PAよりも置き換え後における上記関係で示されるアクセル操作量PAのほうが大きい場合、車両VCの走行性能が向上したと判定する。一方、CPU72は、置き換え前における上記関係で示されるアクセル操作量PAが置き換え後における上記関係で示されるアクセル操作量PA以上である場合、車両VCの走行性能が向上したと判定しない。
なお、増加速度変化比率CRtd、及び、アクセル操作量PAと車速SPとの関係などの走行性能指標Idpは、路面勾配などのような車両の走行する路面状況によって左右されうる。そのため、上記の判定は、関係規定データDRの置き換え前の走行性能指標Idpが導出された時点と同程度の路面状況で、走行性能指標Idpを導出した上で行われる。
車両VCの走行性能が向上したと判定した場合(S90:YES)、CPU72は、図8に示す一連の処理を終了する。一方、車両VCの走行性能が向上したと判定していない場合(S90:NO)、CPU72は、車両VC、より詳しくは車両VCの内燃機関10に異常が発生している旨を報知する異常報知処理を実行する(S92)。異常報知処理としては、例えば、車室内に設けられている案内装置を通じて車両VCの乗員に報知する。案内装置としては、例えば、車載スピーカや車載の画面を挙げることができる。
そして、報知が行われるようになると、CPU72は、図8に示す一連の処理を終了する。
本実施形態の作用及び効果について説明する。
(1)自車両VC1と車車間通信が可能な範囲内に、自車両VC1と同一車種の他の車両VC2が走行している場合、自車両VC1の制御装置70は、他の車両VC2と車車間通信を行う。すなわち、本実施形態によれば、同じ走行環境で走行していると推測できる2台の車両同士で車車間通信を行わせることができる。ここでいう走行環境とは、車両VCの走行路面のμ値、走行路面の勾配及び天候などのことである。
本実施形態では、同じ走行環境で走行している他の車両VC2から走行性能指標Idp2を、車車間通信を介して受信すると、自車両VC1の走行性能指標Idp1と、他の車両VC2の走行性能指標Idp2とが比較される。こうした比較によって、自車両VC1の走行性能が他の車両VC2の走行性能よりも低いか否かの判定、すなわち自車両VC1の加速性能が他の車両VC2の加速性能よりも低いか否かの判定が行われる。このように走行環境が同じである他の車両VC2の走行性能指標Idp2と、自車両VC1の走行性能指標Idp1とを比較することにより、自車両VC1の走行環境を考慮した判定を行うことができる。
(2)ここで、サーバを介して自車両VC1の走行性能と他の車両VC2の走行性能とを比較する場合を考える。この場合、サーバでは、走行環境が同じ2台の車両を探索する処理が実行されることになる。当該処理を行うためには、多数の車両VCから様々な情報を集める必要がある。そのため、サーバが収集するデータ量が膨大なものとなってしまう。また、サーバでは、集めた情報を用い、走行環境が同じ2台の車両を探索することになるため、比較できる2台の車両VCの探索に時間を要してしまう。
この点、車車間通信によって情報の送受信できる範囲は、比較的狭い。そのため、車車間通信を行うことのできる各車両VCは、互いに近くを走行していると推測できる。すなわち、車車間通信を介して情報の送受信ができることで、自車両VC1と他の車両VC2とが同じ走行環境で走行していると判断できる。したがって、自車両VC1と同じ走行環境で走行する他の車両VC2を見つけるために多大なる情報をサーバに集めることによるサーバの負荷の増大を抑制できる。また、比較を行うのに要する時間が長くなることも抑制できる。
(3)他の車両VC2の走行性能指標Idp2と自車両VC1の走行性能指標Idp1との比較によって、自車両VC1の走行性能が他の車両VC2の走行性能よりも低いと判定された場合、自車両VC1では、車両の状態と行動変数との関係の適正化が他の車両VC2よりも遅れている可能性がある。すなわち、他の車両VC2と比較し、関係規定データDRの更新が遅れている可能性がある。そこで、本実施形態では、自車両VC1の走行性能が他の車両VC2の走行性能よりも低いと判定された場合、自車両VC1の記憶装置76に記憶されている関係規定データDRが、他の車両VC2で用いられている関係規定データDRに置き換えられる。これにより、関係規定データDRの更新の遅れに起因して自車両VC1の走行性能が低かった場合においては、関係規定データDRの置き換え前よりも自車両VC1の走行性能、すなわち加速性能を向上できる。
(4)自車両VC1の記憶装置76に記憶されている関係規定データDRを、他の車両VC2で用いられている関係規定データDRに置き換えても自車両VC1の走行性能、すなわち加速性能が向上しない場合、自車両VC1の走行性能、すなわち加速性能の低い要因が車両の状態と行動変数との関係の適正化の遅れではないと考えられる。そこで、本実施形態では、関係規定データDRの置き換えを行った以降でも自車両VC1の走行性能、すなわち加速性能が向上しないときには、自車両VC1の構成部品に故障などの異常が発生している可能性があるため、自車両VC1に異常が発生している旨が報知される。これにより、車両VCの修理工場などへの入庫を、車両VCの所有者や乗員に促すことができる。
(5)積載量が大きく異なる車両VC同士で走行性能指標Idpの比較を行っても、自車両VC1での強化学習による行動価値関数Qの更新が、他の車両VC2での強化学習による行動価値関数Qの更新よりも遅れているか否かを判断できない。言い換えると、積載量が同程度の車両VC同士で走行性能指標Idpの比較を行うことにより、自車両VC1での強化学習による行動価値関数Qの更新が、他の車両VC2での強化学習による行動価値関数Qの更新よりも遅れているか否かを判断できる。そこで、本実施形態では、他の車両VC2の積載量の推定値LC2と自車両VC1の積載量の推定値LCとの差分ΔLCが積載量差分判定値ΔLCTh未満であることを条件に、当該比較が行われるようになっている。これにより、自車両VC1での強化学習による行動価値関数Qの更新が、他の車両VC2での強化学習による行動価値関数Qの更新よりも遅れているか否かの判断の精度を高くできる。
(6)車両VCの走行距離Milが長いほど、車両VCの構成部品の特性の経時変化の度合いが大きいと推測できる。そして、車両VCの構成部品の特性の経時変化の度合いが大きく異なる車両VC同士で走行性能指標Idpの比較を行っても、自車両VC1での強化学習による行動価値関数Qの更新が、他の車両VC2での強化学習による行動価値関数Qの更新よりも遅れているか否かを判断できない。言い換えると、構成部品の特性の経時変化の度合いが同程度の車両VC同士で走行性能指標Idpの比較を行うことにより、自車両VC1での強化学習による行動価値関数Qの更新が、他の車両VC2での強化学習による行動価値関数Qの更新よりも遅れているか否かを判断できる。そこで、本実施形態では、他の車両VC2の走行距離Mil2と自車両VC1の走行距離Mil1との差分ΔMilが距離差分判定値ΔMilTh未満であることを条件に、当該比較が行われるようになっている。これにより、自車両VC1での強化学習による行動価値関数Qの更新が、他の車両VC2での強化学習による行動価値関数Qの更新よりも遅れているか否かの判断の精度を高くできる。
(第2実施形態)
以下、第2実施形態について、第1実施形態との相違点を中心に図面を参照しつつ説明する。
図9には、自車両VC1の走行性能が他の車両VC2の走行性能よりも低いか否かの判定、すなわち自車両VC1の加速性能が他の車両VC2の加速性能よりも低いか否かの判定を行うために制御装置70が実行する処理の手順を示す。図9に示す処理は、ROM74に記憶された制御プログラム74aをCPU72が例えば所定周期で繰り返し実行することにより実現される。
本実施形態では、車両VCの走行中では、車車間通信を行うことのできる他の車両の探索が行われている。そして、車車間通信を行うことのできる他の車両VC2を見つけた場合において、当該他の車両VC2が、自車両VC1と同一車種であることを条件に、図9に示す一連の処理が開始される。
図9に示す一連の処理において、CPU72は、S70,S72の処理の実行によって他の車両VC2の走行性能指標Idp2を取得すると、比較条件が成立しているか否かを判定する(S74)。そして、比較条件が成立する場合(S74:YES)、CPU72は、S76,S78の処理を実行する。自車両VC1の走行性能が他の車両VC2の走行性能よりも低くない場合、すなわち自車両VC1の加速性能が他の車両VC2の加速性能よりも低くない場合(S78:NO)、CPU72は、上記の正の値αとして値α1を設定し、上記の負の値βとして値β1を設定する(S86)。一方、自車両VC1の走行性能が他の車両VC2の走行性能よりも低い場合、すなわち自車両VC1の加速性能が他の車両VC2の加速性能よりも低い場合(S78:YES)、CPU72は、上記の正の値αとして値α2を設定し、上記の負の値βとして値β2を設定する(S88)。各値α1,α2は正の値であり、値α2は値α1よりも大きい。各値β1,β2は負の値であり、値β2の絶対値は値β1の絶対値よりも大きい。このように正の値α及び負の値βを設定すると、CPU72は、図9に示す一連の処理を終了する。
なお、本実施形態では、上記第1実施形態の効果(1)、(2)、(5)及び(6)に加え、以下に示す効果をさらに得ることができる。
(7)自車両VC1の加速性能が他の車両VC2の加速性能よりも低いと判定された場合、自車両VC1の加速性能が他の車両VC2の加速性能よりも低いと判定されない場合と比較し、正の値α及び負の値βの絶対値がそれぞれ大きくなる。これにより、自車両VC1の加速性能が他の車両VC2の加速性能よりも低いと判定された場合、自車両VC1の加速性能が基準性能よりも高いときに与える報酬rが、自車両VC1の加速性能が他の車両VC2の加速性能よりも低いと判定されていない場合よりも大きくなる。これにより、関係規定データDRの更新速度を高め、車両VCの状態と行動変数との関係の適正化を早めることができる。その結果、関係規定データDRの更新の遅れに起因して自車両VC1の走行性能が低かった場合においては、自車両VC1の加速性能の向上を期待できる。
(8)上記のように報酬rを大きくすることによって車両VCの状態と行動変数との関係の適正化を早めることにより、自車両VC1の加速性能が高くなる。このように自車両VC1の加速性能が高くなった状態で、再び、車車間通信で得た情報を基に、自車両VC1の加速性能が他の車両VC2の加速性能よりも低いか否かの判定が行われることがある。この際、自車両VC1の加速性能が他の車両VC2の加速性能よりも低くなかった場合には、大きな値(すなわち、値α2)が報酬rとして与えられる状態が解消される。すなわち、正の値αが値α1に戻されるとともに、負の値βが値β1に戻される。これにより、関係規定データDRが過剰に更新されることを抑制できる。
(第3実施形態)
以下、第3実施形態について、第1実施形態との相違点を中心に図面を参照しつつ説明する。
本実施形態では、走行性能とは、車両VCのエネルギの利用効率のことである。そのため、本実施形態で導出される走行性能指標Idpとは、車両VCのエネルギの利用効率に関する指標である。
ここで、一般的に、内燃機関10のトルクTrqを急変させるような運転が車両VCで行われる場合、車両VCのエネルギの利用効率が低くなる、すなわち燃費が低くなる。そのため、アクセル操作量PAの変更に伴って内燃機関10のトルクTrqが変化するに際し、トルクTrqの変化速度が低い車両VCを、トルクTrqの変化速度が高い車両VCよりもエネルギの利用効率の高い車両であるということができる。そこで、例えば、アクセル操作量PAの変化と内燃機関10のトルクTrqの変化との関係が、走行性能指標Idpとして導出される。具体的には、上記の増加速度変化比率CRtdを、走行性能指標Idpとして導出してもよい。この場合、エネルギの利用効率の高い車両VSでは、利用効率の高くない車両VCよりも増加速度変化比率CRtdが小さくなりやすい。
次に、図4を参照し、本実施形態で実行される更新処理について説明する。
図4に示す一連の処理において、CPU72は、上記第1実施形態の場合と同様に、直近に終了されたエピソード中のトルク指令値Trq*、トルクTrq及び加速度Gxの3つのサンプリング値の組からなる時系列データと、状態s及び行動aの時系列データと、を取得する(S30)。次にCPU72は、直近のエピソードに属する任意のトルクTrqとトルク指令値Trq*との差の絶対値が規定量ΔTrq以下である旨の条件(ア)と、加速度Gxが下限値GxL以上であって上限値GxH以下である旨の条件(イ)との論理積が真であるか否かを判定する(S32)。
ここで、上記第1実施形態の場合と同様に、CPU72は、下限値GxLを、エピソードの開始時におけるアクセル操作量PAの変化量ΔPAによって可変設定する。すなわち、CPU72は、過渡時に関するエピソードであって且つ変化量ΔPAが正である場合には、定常時に関するエピソードの場合と比較して、下限値GxLを大きい値に設定する。また、CPU72は、過渡時に関するエピソードであって且つ変化量ΔPAが負である場合には、定常時に関するエピソードの場合と比較して、下限値GxLを小さい値に設定する。
また、上記第1実施形態の場合と同様に、CPU72は、上限値GxHを、エピソードの開始時におけるアクセル操作量PAの単位時間当たりの変化量ΔPAによって可変設定する。すなわち、CPU72は、過渡時に関するエピソードであって且つ変化量ΔPAが正である場合には、定常時に関するエピソードの場合と比較して、上限値GxHを大きい値に設定する。また、CPU72は、過渡時に関するエピソードであって且つ変化量ΔPAが負である場合には、定常時に関するエピソードの場合と比較して、上限値GxHを小さい値に設定する。
ただし、上記第1実施形態では車両VCの加速性能に関する指標として走行性能指標Idpが導出されるのに対し、本実施形態では、車両VCのエネルギの利用効率に関する指標として走行性能指標Idpが導出される。そのため、第1実施形態の場合と比較して下限値GxLと上限値GxHとの差分が小さくなるように、下限値GxL及び上限値GxHがそれぞれ設定される。これにより、S32の判定を肯定判定とする加速度Gxの範囲が小さくなる。
CPU72は、論理積が真であると判定する場合(S32:YES)、報酬rに正の値αを代入する一方(S34)、偽であると判定する場合(S32:NO)、報酬rに負の値βを代入する(S36)。そして、CPU72は、S38〜S44の処理を実行すると、図4に示した一連の処理を終了する。
本実施形態では、上記第1実施形態の効果(2)、(4)〜(6)に加え、以下に示す効果をさらに得ることができる。
(9)自車両VC1と車車間通信が可能な範囲内に、自車両VC1と同一車種の他の車両VC2が走行している場合、自車両VC1の制御装置70は、他の車両VC2と車車間通信を行う。すなわち、本実施形態によれば、同じ走行環境で走行していると推測できる2台の車両同士で車車間通信を行わせることができる。ここでいう走行環境とは、車両VCの走行路面のμ値、走行路面の勾配及び天候などのことである。
本実施形態では、同じ走行環境で走行している他の車両VC2から走行性能指標Idp2を、車車間通信を介して受信すると、自車両VC1の走行性能指標Idp1と、他の車両VC2の走行性能指標Idp2とを比較することにより、自車両VC1のエネルギの利用効率が他の車両VC2のエネルギの利用効率よりも低いか否かの判定が行われる。このように走行環境が同じである他の車両VC2の走行性能指標Idp2と、自車両VC1の走行性能指標Idp1とを比較することにより、自車両VC1の走行環境を考慮した判定を行うことができる。
(10)他の車両VC2の走行性能指標Idp2と自車両VC1の走行性能指標Idp1との比較によって、自車両VC1のエネルギの利用効率が他の車両VC2のエネルギの利用効率よりも低いと判定された場合、自車両VC1では、車両の状態と行動変数との関係の適正化が他の車両VC2よりも遅れている可能性がある。すなわち、他の車両VC2と比較し、関係規定データDRの更新が遅れている可能性がある。そこで、本実施形態では、自車両VC1のエネルギの利用効率が他の車両VC2のエネルギの利用効率よりも低いと判定された場合、自車両VC1の記憶装置76に記憶されている関係規定データDRが、他の車両VC2で用いられている関係規定データDRに置き換えられる。これにより、関係規定データDRの更新の遅れに起因して自車両VC1の走行性能が低かった場合においては、関係規定データDRの置き換え前よりも自車両VC1のエネルギの利用効率を向上できる。
(第4実施形態)
以下、第4実施形態について、第2実施形態との相違点を中心に図面を参照しつつ説明する。
図9を参照し、自車両VC1のエネルギの利用効率が他の車両VC2のエネルギの利用効率よりも低いか否かの判定を行うために制御装置70が実行する処理の手順について説明する。
図9に示す一連の処理において、CPU72は、S70,S72の処理の実行によって他の車両VC2の走行性能指標Idp2を取得すると、比較条件が成立しているか否かを判定する(S74)。そして、比較条件が成立する場合(S74:YES)、CPU72は、S76,S78の処理を実行する。自車両VC1の走行性能が他の車両VC2の走行性能よりも低くない場合、すなわち自車両VC1のエネルギの利用効率が他の車両VC2のエネルギの利用効率よりも低くない場合(S78:NO)、CPU72は、上記の正の値αとして値α1を設定し、上記の負の値βとして値β1を設定する(S86)。一方、自車両VC1の走行性能が他の車両VC2の走行性能よりも低い場合、すなわち自車両VC1のエネルギの利用効率が他の車両VC2のエネルギの利用効率よりも低い場合(S78:YES)、CPU72は、上記の正の値αとして値α2を設定し、上記の負の値βとして値β2を設定する(S88)。各値α1,α2は正の値であり、値α2は値α1よりも大きい。各値β1,β2は負の値であり、値β2の絶対値は値β1の絶対値よりも大きい。このように正の値α及び負の値βを設定すると、CPU72は、図9に示す一連の処理を終了する。
なお、本実施形態では、上記第1実施形態の効果(2)、(5)、(6)及び(9)に加え、以下に示す効果をさらに得ることができる。
(11)自車両VC1のエネルギの利用効率が他の車両VC2のエネルギの利用効率よりも低いと判定された場合、自車両VC1のエネルギの利用効率が他の車両VC2のエネルギの利用効率よりも低いと判定されない場合と比較し、正の値α及び負の値βの絶対値がそれぞれ大きくなる。これにより、自車両VC1の走行性能が他の車両VC2の走行性能よりも低いと判定された場合、自車両VC1のエネルギの利用効率が基準性能よりも高いときに与える報酬rが、自車両VC1のエネルギの利用効率が他の車両VC2のエネルギの利用効率よりも低いと判定されていない場合よりも大きくなる。これにより、関係規定データDRの更新速度を高め、車両VCの状態と行動変数との関係の適正化を早めることができる。その結果、関係規定データDRの更新の遅れに起因して自車両VC1の走行性能が低かった場合においては、自車両VC1のエネルギの利用効率の向上を期待できる。
(12)上記のように報酬rを大きくすることによって車両VCの状態と行動変数との関係の適正化を早めることにより、自車両VC1のエネルギの利用効率が高くなる。このように自車両VC1のエネルギの利用効率が高くなった状態で、再び、車車間通信で得た情報を基に、自車両VC1のエネルギの利用効率が他の車両VC2のエネルギの利用効率よりも低いか否かの判定が行われることがある。この際、自車両VC1のエネルギの利用効率が他の車両VC2のエネルギの利用効率よりも低くなかった場合には、大きな値(すなわち、値α2)が報酬rとして与えられる状態が解消される。すなわち、正の値αが値α1に戻されるとともに、負の値βが値β1に戻される。これにより、関係規定データDRが過剰に更新されることを抑制できる。
(対応関係)
上記実施形態における事項と、上記「課題を解決するための手段」の欄に記載した事項との対応関係は、次の通りである。以下では、「課題を解決するための手段」の欄に記載した解決手段の番号毎に、対応関係を示している。[1〜10]実行装置は、図1において、CPU72及びROM74に対応し、記憶装置は、記憶装置76に対応する。指標導出処理は図5のS50の処理に対応し、指標受信処理は図7のS70,S72の処理に対応し、性能判定処理は図7及び図9のS76,S78の処理に対応する。取得処理は図3のS10,S16の処理に対応し、操作処理は図3のS16の処理に対応し、報酬算出処理は図4のS32〜S36の処理に対応し、更新処理は図4のS38〜S44の処理に対応する。更新写像は、学習プログラム74bのうちS38〜S44の処理を実行する指令によって規定された写像に対応する。データ置換処理は、図7のS84の処理に対応する。異常報知処理は、図8のS92の処理に対応する。積載量取得処理は図5のS52の処理に対応し、積載量受信処理は、図7のS70において車両積載量の推定値の送信が要求された場合の図6のS62の処理に対応する。走行距離取得処理は図5のS54の処理に対応し、走行距離受信処理は、図7のS70において走行距離の送信が要求された場合の図6のS62の処理に対応する。
(変更例)
上記各実施形態は、以下のように変更して実施することができる。上記実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
「異常報知処理について」
・異常報知処理は、車両VCに何らかの異常が発生している旨を、車両の販売会社や工場に知らせる処理であってもよい。例えば、制御装置70は、販売会社や工場のサーバに通信機77を介して、異常が発生している旨の信号を送信する。この際、制御装置70は、自車両VC1を特定できる情報も送信することが好ましい。これにより、販売会社や工場では、異常の発生している可能性のある車両VCを特定できると共に、当該車両VCの所有者に対して入庫を促すことができるようになる。
・上記第1実施形態及び第3実施形態では、自車両VC1の記憶装置76に記憶されている関係規定データDRを他の車両VC2の関係規定データDRに置き換えても、自車両VC1の走行性能が向上したと判定できないときに異常報知処理を実行するようにしている。しかし、関係規定データDRを他の車両VC2の関係規定データDRに置き換えた後で、自車両VC1の走行性能が向上したか否かの判定結果に拘わらず、異常報知処理を実行しなくてもよい。このように異常報知処理を実行しない場合、自車両VC1の走行性能が向上したか否かの判定自体を行わなくてもよい。
・性能判定処理の実行によって、自車両VC1の走行性能が他の車両VC2の走行性能よりも低いと判定したときには、関係規定データDRの置換や報酬rの与え方の変更を行う代わりに、異常報知処理を実行するようにしてもよい。
「比較条件の成立(S74)において」
・自車両VC1の車両積載量の推定値LC1と他の車両VC2の車両積載量の推定値LC2との差分ΔLCが積載量差分判定値ΔLCTh未満であること、及び、自車両VC1の走行距離Mil1と他の車両VC2の走行距離Mil2との差分ΔMilが距離差分判定値ΔMilTh未満であること以外の条件を、比較条件に更に加えてもよい。例えば、自車両VC1の進行方向と他の車両VC2の進行方向とが同じであることを、比較条件に加えてもよい。また例えば、自車両VC1で使用される燃料の性状と他の車両VC2で使用される燃料の性状との乖離度合いが許容範囲内であることを、比較条件に加えてもよい。
・自車両VC1の車両積載量の推定値LC1と他の車両VC2の車両積載量の推定値LC2との差分ΔLCが積載量差分判定値ΔLCTh未満であることが比較条件に含まれるのであれば、自車両VC1の走行距離Mil1と他の車両VC2の走行距離Mil2との差分ΔMilが距離差分判定値ΔMilTh未満であることを比較条件に含ませるのは必須ではない。
・自車両VC1の走行距離Mil1と他の車両VC2の走行距離Mil2との差分ΔMilが距離差分判定値ΔMilTh未満であることが比較条件に含まれるのであれば、自車両VC1の車両積載量の推定値LC1と他の車両VC2の車両積載量の推定値LC2との差分ΔLCが積載量差分判定値ΔLCTh未満であることを比較条件に含ませるのは必須ではない。
・図7や図9に示した一連の処理において、S74の判定を省略してもよい。すなわち、他の車両VC2から走行性能指標Idp2を受信できたら、比較条件が成立しているか否かに拘わらず、自車両VC1の走行性能指標Idp1と、他の車両VC2の走行性能指標Idp2との比較を行うようにしてもよい。
「走行性能指標について」
・上記第1実施形態及び第2実施形態では、車両VCの加速性能に関する指標を走行性能指標Idpとして導出している。この場合の走行性能指標Idpは、車両VCの加速性能を表すデータであれば、上記第1実施形態及び第2実施形態で説明した増加速度変化比率CRtdとは異なるデータを、走行性能指標Idpとして導出するようにしてもよい。
・上記第3実施形態及び第4実施形態では、車両VCのエネルギの利用効率に関する指標を走行性能指標Idpとして導出している。この場合の走行性能指標Idpは、車両VCのエネルギの利用効率を表すデータであれば、上記第3実施形態及び第4実施形態で説明した増加速度変化比率CRtdとは異なるデータを、走行性能指標Idpとして導出するようにしてもよい。
「車両の走行性能について」
・車両VSの加速性能及びエネルギの利用効率とは異なる性能を、車両VCの走行性能としてもよい。例えば、車両VCの排気性能を走行性能としてもよい。この場合、指標導出処理では、排気性能に関する指標が走行性能指標Idpとして導出されることになる。そして、比較判定処理では、自車両VC1の排気性能に関する指標と、他の車両VC2の排気性能に関する指標とを比較することにより、自車両VC1の排気性能が他の車両VC2の排気性能よりも低いか否かが判定されることになる。
「テーブル形式のデータの次元削減について」
・テーブル形式のデータの次元削減手法としては、上記各実施形態において例示したものに限らない。例えばアクセル操作量PAが最大値となることはまれであることから、アクセル操作量PAが規定量以上となる状態については行動価値関数Qを定義せず、アクセル操作量PAが規定量以上となる場合のスロットル開口度指令値TA*などは、別途適合してもよい。また例えば、行動のとりうる値からスロットル開口度指令値TA*が規定値以上となるものを除くなどして、次元削減をしてもよい。
「関係規定データについて」
・上記各実施形態では、行動価値関数Qを、テーブル形式の関数としたが、これに限らない。例えば、関数近似器を用いてもよい。
・例えば、行動価値関数Qを用いる代わりに、方策πを、状態s及び行動aを独立変数とし、行動aをとる確率を従属変数とする関数近似器にて表現し、関数近似器を定めるパラメータを、報酬rに応じて更新してもよい。
「操作処理について」
・例えば「関係規定データについて」の欄に記載したように、行動価値関数を関数近似器とする場合、上記各実施形態におけるテーブル型式の関数の独立変数となる行動についての離散的な値の組の全てについて、状態sとともに行動価値関数Qに入力することによって、行動価値関数Qを最大化する行動aを特定すればよい。その場合、例えば、主として特定された行動aを操作に採用しつつも、所定の確率でそれ以外の行動を選択すればよい。
・例えば「関係規定データについて」の欄に記載したように、方策πを、状態s及び行動aを独立変数とし、行動aをとる確率を従属変数とする関数近似器とする場合、方策πによって示される確率に基づき行動aを選択すればよい。
「更新写像について」
・S38〜S44の処理においては、εソフト方策オン型モンテカルロ法によるものを例示したが、これに限らない。例えば、方策オフ型モンテカルロ法によるものであってもよい。もっとも、モンテカルロ法にも限らず、例えば、方策オフ型TD法を用いたり、また例えばSARSA法のように方策オン型TD法を用いたり、また例えば、方策オン型の学習として適格度トレース法を用いたりしてもよい。
・例えば「関係規定データについて」の欄に記載したように、方策πを関数近似器を用いて表現し、これを報酬rに基づき直接更新する場合には、方策勾配法などを用いて更新写像を構成すればよい。
・行動価値関数Qと方策πとのうちの何れか一方のみを、報酬rによる直接の更新対象とするものに限らない。例えば、アクター・クリティック法のように、行動価値関数Q及び方策πをそれぞれ更新してもよい。また、アクター・クリティック法においては、これに限らず、例えば行動価値関数Qに代えて価値関数Vを更新対象としてもよい。
・上記各実施形態では、強化学習に従った更新写像によって関係規定データを用いて電子機器の操作を行っている。しかし、車両の走行によって得られた情報に基づいて車両の走行性能に関わるパラメータを学習させる車両であれば、車両用制御装置を、こうした関係規定データを用いないで電子機器の操作が制御される車両に適用してもよい。
「行動変数について」
・上記各実施形態では、行動変数としてのスロットルバルブの開口度に関する変数として、スロットル開口度指令値TA*を例示したが、これに限らない。例えば、アクセル操作量PAに対するスロットル開口度指令値TA*の応答性を、無駄時間及び2次遅れフィルタにて表現し、無駄時間と、2次遅れフィルタを規定する2つの変数との合計3つの変数を、スロットルバルブの開口度に関する変数としてもよい。ただし、その場合、状態変数は、アクセル操作量PAの時系列データに代えて、アクセル操作量PAの単位時間当たりの変化量とすることが望ましい。
・上記各実施形態では、行動変数として、スロットルバルブの開口度に関する変数を例示したが、これに限らない。例えば、スロットルバルブの開口度に関する変数に加えて、点火時期に関する変数、空燃比制御に関する変数及び変速装置50の変速比を用いてもよい。
・下記「内燃機関について」の欄に記載したように、圧縮着火式の内燃機関の場合、スロットルバルブの開口度に関する変数に代えて噴射量に関する変数を用いればよい。またこれに加えて、例えば、噴射時期に関する変数や、1燃焼サイクルにおける噴射回数に関する変数、1燃焼サイクルにおける1つの気筒のための時系列的に隣接した2つの燃料噴射のうちの一方の終了タイミングと他方の開始タイミングとの間の時間間隔に関する変数を用いてもよい。
・例えば変速装置50が有段変速装置の場合、クラッチの係合状態を油圧によって調整するためのソレノイドバルブの電流値などを行動変数としてもよい。
・下記「電子機器について」の欄に記載したように、行動変数に応じた操作の対象に回転電機が含まれる場合、行動変数に回転電機のトルクや電流を含めればよい。すなわち、推力生成装置の負荷に関する変数である負荷変数としては、スロットルバルブの開口度に関する変数や噴射量に限らず、回転電機のトルクや電流であってもよい。
・下記「電子機器について」の欄に記載したように、行動変数に応じた操作の対象に、ロックアップクラッチ42を含める場合、行動変数にロックアップクラッチ42の係合状態を示す変数を含めてもよい。
「状態について」
・上記各実施形態では、アクセル操作量PAの時系列データを、等間隔でサンプリングされた6個の値からなるデータとしたが、これに限らない。互いに異なるサンプリングタイミングにおける2個以上のサンプリング値からなるデータであればよく、この際、3個以上のサンプリング値からなるデータや、サンプリング間隔が等間隔であるデータであることがより望ましい。
・アクセル操作量に関する状態変数としては、アクセル操作量PAの時系列データに限らず、例えば「行動変数について」の欄に記載したように、アクセル操作量PAの単位時間当たりの変化量などであってもよい。
・例えば「行動変数について」の欄に記載したように、ソレノイドバルブの電流値を行動変数とする場合、状態に、変速装置の入力軸52の回転速度や出力軸54の回転速度、ソレノイドバルブによって調整される油圧を含めればよい。また例えば「行動変数について」の欄に記載したように、回転電機のトルクや出力を行動変数とする場合、状態に、バッテリの充電率や温度を含めればよい。また例えば「行動変数について」の欄に記載したように、コンプレッサの負荷トルクや空調装置の消費電力を行動に含める場合、状態に、車室内の温度を含めればよい。
「電子機器について」
・行動変数に応じた操作の対象となる内燃機関の電子機器としては、スロットルバルブ14に限らない。例えば、点火装置26や燃料噴射弁16であってもよい。
・推力生成装置と駆動輪との間の駆動系装置を、行動変数に応じた操作の対象となる電子機器としてもよい。この場合、変速装置50やロックアップクラッチ42を、行動変数に応じた操作の対象となる電子機器とすればよい。
変速装置50を、行動変数に応じた操作の対象となる電子機器とする場合、車両VCの加速性能を高めるためには、変速装置50の変速比として大きい値、すなわち変速段として低速側の変速段が選択されやすくなるように関係規定データDRを更新すればよい。一方、車両VCのエネルギの利用効率を高めるためには、変速装置50の変速比として小さい値、すなわち変速段として高速側の変速段が選択されやすくなるように関係規定データDRを更新すればよい。
ロックアップクラッチ42を、行動変数に応じた操作の対象となる電子機器とする場合、車両VCのエネルギの利用効率を高めるためには、車速がより低い段階からロックアップクラッチ42を係合状態とできるように関係規定データDRを更新すればよい。
・下記「車両について」の欄に記載したように、車両が推力生成装置として回転電機を備える場合、行動変数に応じた操作の対象となる電子機器を、回転電機に接続されるインバータなどの電力変換回路としてもよい。もっとも、車載駆動系の電子機器に限らず、例えば車載空調装置などであってもよい。この場合であっても、例えば車載空調装置が推力生成装置の回転動力によって駆動される場合、推力生成装置の動力のうち駆動輪60に供給される動力が車載空調装置の負荷トルクに依存することから、車載空調装置の負荷トルクを行動変数に含めることなどが有効である。また例えば車載空調装置が推力生成装置の回転動力を利用しないものであったとしても、エネルギ利用効率に影響することから、行動変数に車載空調装置の消費電力を加えることは有効である。
「車両用制御プログラム」
・上記各実施形態では、制御装置70のROM74に予め記憶されている制御プログラム74a及び学習プログラム74bをCPU72が実行することにより、自車両VC1の走行性能と他の車両VC2の走行性能との比較が行われるようになっている。しかし、当該比較を行うのに必要な各種処理を含む車両制御用プログラムは、ROM74に予め記憶されていなくてもよい。例えば、車両VCの所有者の指示によって、当該車両制御用プログラムを車外のサーバから制御装置70にインストールさせるようにしてもよい。この場合、当該車両制御用プログラムは、制御装置70の不揮発性メモリに記憶される。そして、不揮発性メモリに記憶された車両制御用プログラムをCPU72に実行させることにより、上記各実施形態と同等の効果を得ることができる。
「実行装置について」
・実行装置としては、CPU72とROM74とを備えて、ソフトウェア処理を実行するものに限らない。例えば、上記各実施形態においてソフトウェア処理されたものの少なくとも一部を、ハードウェア処理する例えばASICなどの専用のハードウェア回路を備えてもよい。すなわち、実行装置は、以下の(a)〜(c)のいずれかの構成であればよい。(a)上記処理の全てを、プログラムに従って実行する処理装置と、プログラムを記憶するROMなどのプログラム格納装置とを備える。(b)上記処理の一部をプログラムに従って実行する処理装置及びプログラム格納装置と、残りの処理を実行する専用のハードウェア回路とを備える。(c)上記処理の全てを実行する専用のハードウェア回路を備える。ここで、処理装置およびプログラム格納装置を備えたソフトウェア実行装置や、専用のハードウェア回路は複数であってもよい。
「記憶装置について」
・上記各実施形態では、関係規定データDRが記憶される記憶装置76と、学習プログラム74bや制御プログラム74aが記憶される記憶装置(ROM74)とを別の記憶装置としたが、これに限らない。
「内燃機関について」
・内燃機関としては、燃料噴射弁として吸気通路12に燃料を噴射するポート噴射弁を備えるものに限らず、燃焼室24に燃料を直接噴射する筒内噴射弁を備えるものであってもよく、また例えば、ポート噴射弁及び筒内噴射弁の双方を備えるものであってもよい。
・内燃機関としては、火花点火式内燃機関に限らず、例えば燃料として軽油などを用いる圧縮着火式内燃機関などであってもよい。
「車両について」
・車両は、車両の推力生成装置として内燃機関のみを備えたものではなく、例えば内燃機関及び回転電気の双方を備えるハイブリッド車両であってもよい。また例えば、車両は、電気自動車や燃料電池車のように、推力生成装置が回転電機のみの車両であってもよい。
10…内燃機関
14…スロットルバルブ
16…燃料噴射弁
18…吸気バルブ
26…点火装置
50…変速装置
70…制御装置
72…CPU
74…ROM
76…記憶装置
77…通信機
88…アクセルセンサ
90…加速度センサ
VC,VC1,VC2…車両

Claims (10)

  1. 他の車両との直接通信である車車間通信の機能を有する車両に適用される車両用制御装置であって、
    実行装置を備え、
    前記実行装置は、
    自車両の走行性能に関する指標である走行性能指標を導出する指標導出処理と、
    前記車車間通信によって、前記他の車両から当該他の車両の前記走行性能指標を受信する指標受信処理と、
    前記他の車両の前記走行性能指標と、前記自車両の前記走行性能指標とを比較することにより、前記自車両の走行性能が前記他の車両の走行性能よりも低いか否かを判定する性能判定処理と、を実行する
    車両用制御装置。
  2. 前記走行性能指標によって示される車両の走行性能に影響を与える車両の状態と、前記車両の電子機器の操作に関する変数である行動変数との関係を規定する関係規定データを記憶する記憶装置を備え、
    前記実行装置は、
    前記車両の状態を検出するセンサの検出値を取得する取得処理と、
    前記検出値と前記関係規定データとによって定まる前記行動変数の値に基づいて前記電子機器を操作する操作処理と、
    前記検出値が、前記自車両の走行性能が基準性能よりも高いことを示す値であるときには、前記検出値が、前記自車両の走行性能が前記基準性能よりも高くないことを示す値であるときよりも大きい報酬を与える報酬算出処理と、
    前記検出値、前記電子機器の操作に用いられた前記行動変数の値、及び当該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、を実行するようになっており、
    前記更新写像は、前記関係規定データに従って前記電子機器が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものであり、
    前記実行装置は、前記報酬算出処理では、前記自車両の走行性能が前記基準性能よりも高いことを示す値であるときに与える報酬を、前記性能判定処理で前記自車両の走行性能が前記他の車両の走行性能よりも低いと判定した場合には、前記自車両の走行性能が前記他の車両の走行性能よりも低いと判定していない場合よりも大きい値とする
    請求項1に記載の車両用制御装置。
  3. 前記走行性能指標によって示される車両の走行性能に影響を与える車両の状態と、前記車両の電子機器の操作に関する変数である行動変数との関係を規定する関係規定データを記憶する記憶装置を備え、
    前記実行装置は、
    前記車両の状態を検出するセンサの検出値を取得する取得処理と、
    前記検出値と前記関係規定データとによって定まる前記行動変数の値に基づいて前記電子機器を操作する操作処理と、
    前記検出値が、前記自車両の走行性能が基準性能よりも高いことを示す値であるときには、前記検出値が、前記自車両の走行性能が前記基準性能よりも高くないことを示す値であるときよりも大きい報酬を与える報酬算出処理と、
    前記検出値、前記電子機器の操作に用いられた前記行動変数の値、及び当該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、
    前記性能判定処理で前記自車両の走行性能が前記他の車両の走行性能よりも低いと判定したときには、前記他の車両から前記関係規定データを受信し、前記記憶装置に記憶されている前記関係規定データを、前記他の車両から受信した前記関係規定データに置き換えるデータ置換処理と、を実行し、
    前記更新写像は、前記関係規定データに従って前記電子機器が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものである
    請求項1に記載の車両用制御装置。
  4. 前記実行装置は、前記データ置換処理の実行によって前記記憶装置の前記関係規定データを置き換えても前記自車両の走行性能が向上しないときには、前記自車両に異常が発生している旨を報知する異常報知処理を実行する
    請求項3に記載の車両用制御装置。
  5. 前記実行装置は、
    前記指標導出処理では、車両のエネルギの利用効率に関する指標を前記走行性能指標として導出し、
    前記性能判定処理では、前記自車両のエネルギの利用効率が前記他の車両のエネルギの利用効率よりも低いか否かを判定する
    請求項1〜請求項4のうち何れか一項に記載の車両用制御装置。
  6. 前記実行装置は、
    前記指標導出処理では、車両の加速性能に関する指標を前記走行性能指標として導出し、
    前記性能判定処理では、前記自車両の加速性能が前記他の車両の加速性能よりも低いか否かを判定する
    請求項1〜請求項4のうち何れか一項に記載の車両用制御装置。
  7. 前記実行装置は、
    前記自車両の積載量の推定値を取得する積載量取得処理と、
    前記車車間通信によって前記他の車両の積載量の推定値を受信する積載量受信処理と、を実行し、
    前記他の車両の積載量の推定値と前記自車両の積載量の推定値との差分が積載量差分判定値未満であることを条件に、前記性能判定処理を実行する
    請求項1〜請求項6のうち何れか一項に記載の車両用制御装置。
  8. 前記実行装置は、
    前記自車両の走行距離を取得する走行距離取得処理と、
    前記車車間通信によって前記他の車両の走行距離を受信する走行距離受信処理と、を実行し、
    前記他の車両の走行距離と前記自車両の走行距離との差分が距離差分判定値未満であることを条件に、前記性能判定処理を実行する
    請求項1〜請求項7のうち何れか一項に記載の車両用制御装置。
  9. 自車両の周りで走行する他の車両との直接通信である車車間通信の機能を有する車両に適用され、
    前記車両の実行装置に、
    前記自車両の走行性能に関する指標である走行性能指標を導出する指標導出処理と、
    前記車車間通信によって、前記他の車両から当該他の車両の前記走行性能指標を受信する指標受信処理と、
    前記他の車両の前記走行性能指標と前記自車両の前記走行性能指標とを比較することにより、前記自車両の走行性能が前記他の車両の走行性能よりも低いか否かを判定する性能判定処理と、を実行させる
    車両制御方法。
  10. 自車両の周りを走行する他の車両との直接通信である車車間通信の機能を有する車両の実行装置で実行される車両用制御プログラムであって、
    前記実行装置に、
    自車両の走行性能に関する指標である走行性能指標を導出する指標導出処理と、
    前記車車間通信によって、前記他の車両から当該他の車両の前記走行性能指標を受信する指標受信処理と、
    前記他の車両の前記走行性能指標と前記自車両の前記走行性能指標とを比較することにより、前記自車両の走行性能が前記他の車両の走行性能よりも低いか否かを判定する性能判定処理と、を実行させる
    車両用制御プログラム。
JP2020002013A 2020-01-09 2020-01-09 車両用制御装置 Active JP7211375B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020002013A JP7211375B2 (ja) 2020-01-09 2020-01-09 車両用制御装置
US17/136,253 US11922735B2 (en) 2020-01-09 2020-12-29 Vehicle controller, vehicle control method, and non-transitory computer readable medium storing vehicle control program
CN202110007665.5A CN113176739B (zh) 2020-01-09 2021-01-05 车辆用控制装置、车辆控制方法以及存储车辆用控制程序的非瞬时性的计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020002013A JP7211375B2 (ja) 2020-01-09 2020-01-09 車両用制御装置

Publications (2)

Publication Number Publication Date
JP2021109508A true JP2021109508A (ja) 2021-08-02
JP7211375B2 JP7211375B2 (ja) 2023-01-24

Family

ID=76763242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020002013A Active JP7211375B2 (ja) 2020-01-09 2020-01-09 車両用制御装置

Country Status (3)

Country Link
US (1) US11922735B2 (ja)
JP (1) JP7211375B2 (ja)
CN (1) CN113176739B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210114596A1 (en) * 2019-10-18 2021-04-22 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6705545B1 (ja) * 2019-10-18 2020-06-03 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
US11851086B2 (en) * 2020-06-26 2023-12-26 Waymo Llc Using simulations to identify differences between behaviors of manually-driven and autonomous vehicles
CN114186248B (zh) * 2021-11-13 2022-08-05 云南财经大学 基于区块链智能合约的零知识证明可验证凭证数字身份管理系统及方法
US20230294718A1 (en) * 2022-03-16 2023-09-21 GM Global Technology Operations LLC Distributed embedded controller implementation for self-learning controls

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250604A (ja) * 1999-03-02 2000-09-14 Yamaha Motor Co Ltd 特性最適化方法における最適化の協調方法
JP2009031873A (ja) * 2007-07-24 2009-02-12 Denso Corp 車両走行制御装置
JP2010186413A (ja) * 2009-02-13 2010-08-26 Mazda Motor Corp 車両用運転支援装置
JP2013003857A (ja) * 2011-06-16 2013-01-07 Mitsubishi Motors Corp 走行支援システム
WO2017057528A1 (ja) * 2015-10-01 2017-04-06 株式会社発明屋 非ロボットカー、ロボットカー、道路交通システム、車両共用システム、ロボットカー教習システム及びロボットカー教習方法
JP6705544B1 (ja) * 2019-10-18 2020-06-03 トヨタ自動車株式会社 車両用制御装置、車両用制御システム、および車両用学習装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150127191A1 (en) * 2013-11-06 2015-05-07 Saswat Misra Vehicular network
US20150279125A1 (en) * 2014-03-25 2015-10-01 Ford Global Technologies, Llc Variable reporting rate telematics
CN106502358A (zh) * 2015-09-04 2017-03-15 李涛 一种新能源服务器系统的多模式电源管理策略及装置
JP6026612B2 (ja) 2015-09-22 2016-11-16 本田技研工業株式会社 車両用内燃機関の制御装置
CN105306176B (zh) * 2015-11-13 2019-08-09 南京邮电大学 一种基于q学习的车载网mac协议的实现方法
US10233855B2 (en) 2016-04-15 2019-03-19 Toyota Jidosha Kabushiki Kaisha Failure diagnosis apparatus for diagnosing an insufficient output of an internal combustion engine
JP6540660B2 (ja) 2016-04-15 2019-07-10 トヨタ自動車株式会社 内燃機関のデータ記録装置
US10029698B2 (en) * 2016-07-19 2018-07-24 Futurewei Technologies, Inc. Adaptive passenger comfort enhancement in autonomous vehicles
EP3544872A4 (en) * 2017-01-27 2019-12-18 Samsung Electronics Co., Ltd. METHOD, ELECTRONIC APPARATUS AND SYSTEM FOR SHARING VEHICLE PERFORMANCE INFORMATION BETWEEN VEHICLES
KR102297408B1 (ko) * 2017-04-06 2021-09-03 현대자동차주식회사 차량 및 그 제어 방법
US10551838B2 (en) * 2017-08-08 2020-02-04 Nio Usa, Inc. Method and system for multiple sensor correlation diagnostic and sensor fusion/DNN monitor for autonomous driving application
CN107479547B (zh) * 2017-08-11 2020-11-24 同济大学 基于示教学习的决策树行为决策算法
CN109733415B (zh) * 2019-01-08 2020-08-14 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
US11069161B2 (en) * 2019-09-30 2021-07-20 Ford Global Technologies, Llc Adaptive sensor fusion

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250604A (ja) * 1999-03-02 2000-09-14 Yamaha Motor Co Ltd 特性最適化方法における最適化の協調方法
JP2009031873A (ja) * 2007-07-24 2009-02-12 Denso Corp 車両走行制御装置
JP2010186413A (ja) * 2009-02-13 2010-08-26 Mazda Motor Corp 車両用運転支援装置
JP2013003857A (ja) * 2011-06-16 2013-01-07 Mitsubishi Motors Corp 走行支援システム
WO2017057528A1 (ja) * 2015-10-01 2017-04-06 株式会社発明屋 非ロボットカー、ロボットカー、道路交通システム、車両共用システム、ロボットカー教習システム及びロボットカー教習方法
JP6705544B1 (ja) * 2019-10-18 2020-06-03 トヨタ自動車株式会社 車両用制御装置、車両用制御システム、および車両用学習装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210114596A1 (en) * 2019-10-18 2021-04-22 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
US11654915B2 (en) * 2019-10-18 2023-05-23 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system

Also Published As

Publication number Publication date
JP7211375B2 (ja) 2023-01-24
US11922735B2 (en) 2024-03-05
US20210217254A1 (en) 2021-07-15
CN113176739B (zh) 2024-04-30
CN113176739A (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
JP7211375B2 (ja) 車両用制御装置
JP2021116783A (ja) 車両用制御装置および車両用制御システム
CN112682203B (zh) 车辆用控制装置、系统、方法、学习装置、以及存储介质
JP6705546B1 (ja) 車両用制御装置、車両用制御システム、および車両用学習装置
CN112682197B (zh) 车辆用控制数据的生成方法、车辆用控制装置和控制系统
JP6705544B1 (ja) 車両用制御装置、車両用制御システム、および車両用学習装置
JP6809587B1 (ja) 車両用制御装置
JP6744598B1 (ja) 車両用制御システム、車両用制御装置、および車両用学習装置
CN113103971B (zh) 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置
CN113006951B (zh) 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置
CN113090400B (zh) 车辆用控制装置及控制系统、车辆用学习装置及学习方法、车辆用控制方法以及存储介质
US20210229688A1 (en) Vehicle control method, vehicle controller, and server
CN113217204B (zh) 车辆控制方法、车辆用控制装置以及服务器
JP2021067257A (ja) 車両用制御装置、車両用制御システム、および車両用学習装置
JP2021066417A (ja) 車両用制御装置、車両用制御システム、および車両用学習装置
JP7207289B2 (ja) 車両用制御装置、車両用制御システム、車両用学習装置、および車両用学習方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221226

R151 Written notification of patent or utility model registration

Ref document number: 7211375

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151