JP7211375B2

JP7211375B2 - 車両用制御装置

Info

Publication number: JP7211375B2
Application number: JP2020002013A
Authority: JP
Inventors: 洋介橋本; 章弘片山; 裕太大城; 和紀杉江; 尚哉岡
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2023-01-24
Anticipated expiration: 2040-01-09
Also published as: US11922735B2; CN113176739A; US20210217254A1; JP2021109508A

Description

本発明は、車両用制御装置に関する。

特許文献１には、内燃機関の異常診断を行う機能を有する制御装置の一例が記載されている。この制御装置では、運転者によってアクセルペダルが操作されている場合、そのアクセル開度が第１所定開度以上であって、且つ要求トルクに対する内燃機関の実際の出力トルクの比率が所定値未満である状態の継続時間が計測される。そして、当該継続時間が所定時間を越えた状態で、アクセル開度が、第１所定開度よりも大きい第２所定開度以上であるときに、内燃機関に異常が発生しているとの診断がなされるようになっている。

上記のような異常診断に用いられる各種の閾値、すなわち第１所定開度、第２所定開度及び所定時間は、予め設定されたものである。

特開２０１７－１９４０４８号公報

上記各種の閾値は、一般的に、様々な環境で車両が走行することを想定して一義的に決められる。そのため、このように決められた閾値は、そのときの車両の走行環境に最適な値ではない可能性がある。そのため、上記のような閾値を用いた異常診断の結果が、そのときの車両の走行環境を考慮した結果ではない可能性がある。

以下、上記課題を解決するための手段およびその作用効果について記載する。
１．他の車両との直接通信である車車間通信の機能を有する車両に適用される車両用制御装置であって、実行装置を備え、前記実行装置は、自車両の走行性能に関する指標である走行性能指標を導出する指標導出処理と、前記車車間通信によって、前記他の車両から当該他の車両の前記走行性能指標を受信する指標受信処理と、前記他の車両の前記走行性能指標と、前記自車両の前記走行性能指標とを比較することにより、前記自車両の走行性能が前記他の車両の走行性能よりも低いか否かを判定する性能判定処理と、を実行し、前記走行性能指標によって示される車両の走行性能に影響を与える車両の状態と、前記車両の電子機器の操作に関する変数である行動変数との関係を規定する関係規定データを記憶する記憶装置を備え、前記実行装置は、前記車両の状態を検出するセンサの検出値を取得する取得処理と、前記検出値と前記関係規定データとによって定まる前記行動変数の値に基づいて前記電子機器を操作する操作処理と、前記検出値が、前記自車両の走行性能が基準性能よりも高いことを示す値であるときには、前記検出値が、前記自車両の走行性能が前記基準性能よりも高くないことを示す値であるときよりも大きい報酬を与える報酬算出処理と、前記検出値、前記電子機器の操作に用いられた前記行動変数の値、及び当該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、を実行するようになっており、前記更新写像は、前記関係規定データに従って前記電子機器が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものであり、前記実行装置は、前記報酬算出処理では、前記自車両の走行性能が前記基準性能よりも高いことを示す値であるときに与える報酬を、前記性能判定処理で前記自車両の走行性能が前記他の車両の走行性能よりも低いと判定した場合には、前記自車両の走行性能が前記他の車両の走行性能よりも低いと判定していない場合よりも大きい値とする車両用制御装置である。

車車間通信は、互いに近くを走行する車両同士の無線通信である。そのため、自車両と車車間通信を行うことのできる他の車両は、自車両の周りを走行している。すなわち、車車間通信を行う２台の車両は、同じ走行環境で走行していると推測できる。そこで、上記構成では、自車両の周りを走行する他の車両から当該他の車両の走行性能指標を、車車間通信によって受信し、受信した他の車両の走行性能指標と、自車両の走行性能指標とを比較することにより、自車両の走行性能が他の車両の走行性能よりも低いか否かの判定を行うようにしている。このように走行環境が同じである他の車両の走行性能指標と、自車両の走行性能指標とを用いて比較することにより、そのときの車両の走行環境を考慮した判定を行うことができるようになる。

上記構成では、電子機器の操作に伴う報酬を算出することにより、当該操作によってどのような報酬が得られるかを把握できる。そして、得られた報酬に基づき、強化学習に従った更新写像によって関係規定データを更新することにより、車両の状態と行動変数との関係を車両の走行において適切な関係に設定できる。そのため、車両の状態と行動変数との関係を車両の走行において適正化することが可能となる。

ところで、他の車両の走行性能指標と自車両の走行性能指標との比較によって、自車両の走行性能が他の車両の走行性能よりも低いと判定された場合、自車両では、車両の状態と行動変数との関係の適正化が他の車両よりも遅れている可能性がある。そこで、上記構成では、自車両の走行性能が他の車両の走行性能よりも低いと判定された場合では、自車両の走行性能が基準性能よりも高いときに与える報酬を、自車両の走行性能が他の車両の走行性能よりも低いと判定されていない場合よりも大きくする。これにより、車両の状態と行動変数との関係の適正化が他の車両よりも遅れている可能性がある場合に、関係規定データの更新速度を高め、当該関係の適正化を早めることができる。その結果、自車両の走行性能を向上できる。

２．他の車両との直接通信である車車間通信の機能を有する車両に適用される車両用制御装置であって、実行装置を備え、前記実行装置は、自車両の走行性能に関する指標である走行性能指標を導出する指標導出処理と、前記車車間通信によって、前記他の車両から当該他の車両の前記走行性能指標を受信する指標受信処理と、前記他の車両の前記走行性能指標と、前記自車両の前記走行性能指標とを比較することにより、前記自車両の走行性能が前記他の車両の走行性能よりも低いか否かを判定する性能判定処理と、を実行し、前記走行性能指標によって示される車両の走行性能に影響を与える車両の状態と、前記車両の電子機器の操作に関する変数である行動変数との関係を規定する関係規定データを記憶する記憶装置を備え、前記実行装置は、前記車両の状態を検出するセンサの検出値を取得する取得処理と、前記検出値と前記関係規定データとによって定まる前記行動変数の値に基づいて前記電子機器を操作する操作処理と、前記検出値が、前記自車両の走行性能が基準性能よりも高いことを示す値であるときには、前記検出値が、前記自車両の走行性能が前記基準性能よりも高くないことを示す値であるときよりも大きい報酬を与える報酬算出処理と、前記検出値、前記電子機器の操作に用いられた前記行動変数の値、及び当該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、前記性能判定処理で前記自車両の走行性能が前記他の車両の走行性能よりも低いと判定したときには、前記他の車両から前記関係規定データを受信し、前記記憶装置に記憶されている前記関係規定データを、前記他の車両から受信した前記関係規定データに置き換えるデータ置換処理と、を実行し、前記更新写像は、前記関係規定データに従って前記電子機器が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものである車両用制御装置である。

車車間通信は、互いに近くを走行する車両同士の無線通信である。そのため、自車両と車車間通信を行うことのできる他の車両は、自車両の周りを走行している。すなわち、車車間通信を行う２台の車両は、同じ走行環境で走行していると推測できる。そこで、上記構成では、自車両の周りを走行する他の車両から当該他の車両の走行性能指標を、車車間通信によって受信し、受信した他の車両の走行性能指標と、自車両の走行性能指標とを比較することにより、自車両の走行性能が他の車両の走行性能よりも低いか否かの判定を行うようにしている。このように走行環境が同じである他の車両の走行性能指標と、自車両の走行性能指標とを用いて比較することにより、そのときの車両の走行環境を考慮した判定を行うことができるようになる。
他の車両の走行性能指標と自車両の走行性能指標との比較によって、自車両の走行性能が他の車両の走行性能よりも低いと判定された場合、自車両では、車両の状態と行動変数との関係の適正化が他の車両よりも遅れている可能性がある。そこで、上記構成では、自車両の走行性能が他の車両の走行性能よりも低いと判定された場合、自車両の記憶装置に記憶されている関係規定データが、当該他の車両で用いられている関係規定データに置き換えられる。これにより、関係規定データの置き換え前よりも自車両の走行性能を向上できる。

３．前記実行装置は、前記データ置換処理の実行によって前記記憶装置の前記関係規定データを置き換えても前記自車両の走行性能が向上しないときには、前記自車両に異常が発生している旨を報知する異常報知処理を実行する上記２に記載の車両用制御装置。

自車両の記憶装置に記憶されている関係規定データを、他の車両で用いられている関係規定データに置き換えても自車両の走行性能が向上しない場合、自車両の走行性能の低い要因が車両の状態と行動変数との関係の適正化の遅れではないと考えられる。そこで、上記構成では、関係規定データの置き換えを行った以降でも自車両の走行性能が向上しないときには、自車両の構成部品に故障などの異常が発生している可能性があるため、自車両に異常が発生している旨が報知される。これにより、車両用制御装置を搭載する車両の修理工場などへの入庫を、当該車両の所有者に促すことができる。

４．前記実行装置は、前記指標導出処理では、車両のエネルギの利用効率に関する指標を前記走行性能指標として導出し、前記性能判定処理では、前記自車両のエネルギの利用効率が前記他の車両のエネルギの利用効率よりも低いか否かを判定する上記１～３のうち何れか一項に記載の車両用制御装置である。

５．前記実行装置は、前記指標導出処理では、車両の加速性能に関する指標を前記走行性能指標として導出し、前記性能判定処理では、前記自車両の加速性能が前記他の車両の加速性能よりも低いか否かを判定する上記１～３のうち何れか一項に記載の車両用制御装置である。

６．前記実行装置は、前記自車両の積載量の推定値を取得する積載量取得処理と、前記車車間通信によって前記他の車両の積載量の推定値を受信する積載量受信処理と、を実行し、前記他の車両の積載量の推定値と前記自車両の積載量の推定値との差分が積載量差分判定値未満であることを条件に、前記性能判定処理を実行する上記１～５のうち何れか一項に記載の車両用制御装置である。

積載量の異なる２台の車両で走行性能指標を比較した場合、積載量の少ない車両の走行性能が、積載量の多い車両の走行性能よりも高くなりやすい。そこで、上記構成では、他の車両の積載量の推定値と自車両の積載量の推定値との差分が積載量差分判定値未満であることを条件に、性能判定処理が実行されるようになっている。言い換えると、当該差分が積載量差分判定値以上であるときには、性能判定処理が実行されない。これにより、自車両と他の車両とで積載量が大きく異なると判断できるときに性能判定処理が実行されることを抑制できる。

７．前記実行装置は、前記自車両の走行距離を取得する走行距離取得処理と、前記車車間通信によって前記他の車両の走行距離を受信する走行距離受信処理と、を実行し、前記他の車両の走行距離と前記自車両の走行距離との差分が距離差分判定値未満であることを条件に、前記性能判定処理を実行する上記１～６のうち何れか一項に記載の車両用制御装置である。

車両の走行距離が長いほど、車両の構成部品の特性の経時変化の度合いが大きいと推測できる。そして、車両の構成部品の特性の経時変化の度合いが大きいほど、車両の性能特性が低くなりやすいと推測できる。そこで、上記構成では、他の車両の走行距離と自車両の走行距離との差分が距離差分判定値未満であることを条件に、性能判定処理が実行されるようになっている。言い換えると、当該差分が距離差分判定値以上であるときには、性能判定処理が実行されない。これにより、自車両の構成部品の特性の経時変化の度合いが他の車両の構成部品の特性の経時変化の度合いと大きく異なる可能性があるときに性能判定処理が実行されることを抑制できる。

第１実施形態にかかる制御装置および駆動系を示す図。同制御装置を備える車両同士で車車間通信を行う様子を模式的に示すブロック図。同制御装置が実行する処理の手順を示すフローチャート。同制御装置が実行する更新処理を示すフローチャート。他の車両に送信するための情報を導出する際に同制御装置が実行する処理の手順を示すフローチャート。他の車両に情報を送信する際に同制御装置が実行する処理の手順を示すフローチャート。自車両の走行性能が他の車両の走行性能よりも低いか否かを判定する際に同制御装置が実行する処理の手順を示すフローチャート。異常報知処理を実行する際に同制御装置が実行する処理の手順を示すフローチャート。第２実施形態にかかる制御装置において、他の車両に送信するための情報を導出する際に実行される処理の手順を示すフローチャート。

（第１実施形態）
以下、車両用制御装置及び車両制御方法の第１実施形態について、図面を参照しつつ説明する。

図１には、車両用制御装置である制御装置７０と、制御装置７０を備える車両ＶＣの駆動系の構成が図示されている。
図１に示すように、車両ＶＣは、車両ＶＣの推力生成装置として内燃機関１０を備えている。内燃機関１０の吸気通路１２には、上流側から順にスロットルバルブ１４及び燃料噴射弁１６が設けられており、吸気通路１２に吸入された空気及び燃料噴射弁１６から噴射された燃料は、吸気バルブ１８の開弁に伴って、シリンダ２０及びピストン２２によって区画される燃焼室２４に流入する。燃焼室２４内において、燃料と空気との混合気は、点火装置２６の火花放電に伴って燃焼に供され、燃焼によって生じたエネルギは、ピストン２２を介してクランク軸２８の回転エネルギに変換される。燃焼に供された混合気は、排気バルブ３０の開弁に伴って、排気として排気通路３２に排出される。排気通路３２には、排気を浄化する後処理装置としての触媒３４が設けられている。

クランク軸２８には、ロックアップクラッチ４２を備えたトルクコンバータ４０を介して、変速装置５０の入力軸５２が機械的に連結可能とされている。変速装置５０は、入力軸５２の回転速度と出力軸５４の回転速度との比である変速比を可変とする装置である。出力軸５４には、駆動輪６０が機械的に連結されている。

制御装置７０は、内燃機関１０を制御対象とし、その制御量であるトルクや排気成分比率などを制御すべく、スロットルバルブ１４、燃料噴射弁１６及び点火装置２６などの内燃機関１０の操作部を操作する。また、制御装置７０は、トルクコンバータ４０を制御対象とし、ロックアップクラッチ４２の係合状態を制御すべくロックアップクラッチ４２を操作する。また、制御装置７０は、変速装置５０を制御対象とし、その制御量としての変速比を制御すべく変速装置５０を操作する。なお、図１には、スロットルバルブ１４、燃料噴射弁１６、点火装置２６、ロックアップクラッチ４２、及び変速装置５０のそれぞれの操作信号ＭＳ１～ＭＳ５を記載している。このように制御装置７０からの操作信号ＭＳ１～ＭＳ５が入力される操作部の各々が、「電子機器」の一例である。

制御装置７０は、制御量の制御のために、エアフローメータ８０によって検出される吸入空気量Ｇａ、スロットルセンサ８２によって検出されるスロットルバルブ１４の開口度であるスロットル開口度ＴＡ、及び、クランク角センサ８４の出力信号Ｓｃｒを参照する。また、制御装置７０は、アクセルセンサ８８によって検出されるアクセルペダル８６の踏み込み量であるアクセル操作量ＰＡ、及び、加速度センサ９０によって検出される車両ＶＣの前後方向の加速度Ｇｘ、を参照する。

制御装置７０は、ＣＰＵ７２、ＲＯＭ７４、電気的に書き換え可能な不揮発性メモリでる記憶装置７６、通信機７７及び周辺回路７８を備え、それらがローカルネットワーク７９を介して通信可能とされている。ここで、周辺回路７８は、内部の動作を規定するクロック信号を生成する回路、電源回路及びリセット回路などを含む。

ＲＯＭ７４には、制御プログラム７４ａ及び学習プログラム７４ｂが記憶されている。一方、記憶装置７６には、関係規定データＤＲが記憶されている。関係規定データＤＲとは、アクセル操作量ＰＡと、スロットル開口度ＴＡの指令値であるスロットル開口度指令値ＴＡ＊及び点火装置２６の遅角量ａｏｐとの関係を規定するものである。スロットル開口度指令値ＴＡ＊及び遅角量ａｏｐが、行動変数の一例である。ここで、遅角量ａｏｐは、予め定められた基準点火時期に対する遅角量であり、基準点火時期は、ＭＢＴ点火時期とノック限界点とのうちの遅角側の時期である。ＭＢＴ点火時期は、最大トルクの得られる点火時期（最大トルク点火時期）である。また、ノック限界点は、ノック限界の高い高オクタン価燃料の使用時に、想定される最良の条件下で、ノッキングを許容できるレベル以内に収めることのできる点火時期の進角限界値である。また、記憶装置７６には、トルク出力写像データＤＴが記憶されている。トルク出力写像データＤＴによって規定されるトルク出力写像は、クランク軸２８の回転速度ＮＥ、充填効率η、及び点火時期ａｉｇを入力とし、トルクＴｒｑを出力する写像である。

また、図２に示すように、通信機７７は、車両間での直接通信である車車間通信を行うためのものである。車車間通信とは、サーバなどを介することなく車両間で直接通信することであって、且つ互いに近くを走行する車両同士の無線通信である。つまり、通信機７７を搭載する車両ＶＣは、車車間通信を行う機能を有する車両であるといえる。以降の記載においては、自車両を「自車両ＶＣ１」とし、自車両ＶＣ１と車車間通信を行う車両を「他の車両ＶＣ２」ということもある。

自車両ＶＣ１の制御装置７０は、車車間通信によって、他の車両ＶＣ２の制御装置７０と各種の情報の送受信を行うことができる。なお、車車間通信を行える場合、自車両ＶＣ１と車車間通信を行うことのできる他の車両ＶＣ２は、自車両ＶＣ１の周りを走行している。すなわち、車車間通信を行う２台の車両は、同じ走行環境で走行しているといえる。

図３に、制御装置７０が実行する処理の手順を示す。図３に示す処理は、ＲＯＭ７４に記憶された制御プログラム７４ａ及び学習プログラム７４ｂをＣＰＵ７２が例えば所定周期で繰り返し実行することにより実現される。なお、以下では、先頭に「Ｓ」が付与された数字によって各処理のステップ番号を示す。

図３に示す一連の処理において、ＣＰＵ７２は、状態ｓとして、アクセル操作量ＰＡの６個のサンプリング値「ＰＡ（１），ＰＡ（２），…ＰＡ（６）」からなる時系列データを取得する（Ｓ１０）。ここで、時系列データを構成する各サンプリング値は、互いに異なるタイミングにおいてサンプリングされたものである。本実施形態では、一定のサンプリング周期でサンプリングされる場合の、互いに時系列的に隣り合う６個のサンプリング値によって時系列データを構成する。

次にＣＰＵ７２は、関係規定データＤＲが定める方策πに従い、Ｓ１０の処理によって取得した状態ｓに応じたスロットル開口度指令値ＴＡ＊及び遅角量ａｏｐからなる行動ａを設定する（Ｓ１２）。

本実施形態において、関係規定データＤＲは、行動価値関数Ｑ及び方策πを定めるデータである。本実施形態において、行動価値関数Ｑは、状態ｓ及び行動ａの８次元の独立変数に応じた期待収益の値を示すテーブル型式の関数である。また、方策πは、状態ｓが与えられたときに、独立変数が与えられた状態ｓとなる行動価値関数Ｑのうち最大となる行動ａ（グリーディ行動）を優先的に選択しつつも、所定の確率で、それ以外の行動ａを選択する規則を定める。

詳しくは、本実施形態にかかる行動価値関数Ｑの独立変数がとりうる値の数は、状態ｓ及び行動ａのとりうる値の全組み合わせのうちの一部が、人の知見などによって削減されたものである。すなわち、例えばアクセル操作量ＰＡの時系列データのうち隣接する２つのサンプリング値の１つがアクセル操作量ＰＡの最小値となりもう１つが最大値となるようなことは、人によるアクセルペダル８６の操作からは生じえないとして、行動価値関数Ｑが定義されていない。本実施形態では、人の知見などに基づく次元削減によって、行動価値関数Ｑを定義する状態ｓの取りうる値を、１０の４乗個以下、より望ましくは１０の３乗個以下に制限する。

次にＣＰＵ７２は、設定されたスロットル開口度指令値ＴＡ＊及び遅角量ａｏｐに基づき、スロットルバルブ１４に操作信号ＭＳ１を出力してスロットル開口度ＴＡを操作するとともに、点火装置２６に操作信号ＭＳ３を出力して点火時期を操作する（Ｓ１４）。ここで、本実施形態では、スロットル開口度ＴＡをスロットル開口度指令値ＴＡ＊にフィードバック制御することを例示することから、スロットル開口度指令値ＴＡ＊が同一の値であっても、操作信号ＭＳ１が互いに異なる信号となりうるものである。また、例えば周知のノッキングコントロール（ＫＣＳ）などがなされる場合、点火時期は、基準点火時期を遅角量ａｏｐにて遅角させた値がＫＣＳにてフィードバック補正された値とされる。ここで、基準点火時期は、ＣＰＵ７２により、クランク軸２８の回転速度ＮＥ及び充填効率ηに応じて可変設定される。なお、回転速度ＮＥは、クランク角センサ８４の出力信号Ｓｃｒに基づきＣＰＵ７２によって算出される。また、充填効率ηは、回転速度ＮＥ及び吸入空気量Ｇａに基づきＣＰＵ７２によって算出される。

次にＣＰＵ７２は、内燃機関１０のトルクＴｒｑ、内燃機関１０に対するトルク指令値Ｔｒｑ＊、及び加速度Ｇｘを取得する（Ｓ１６）。ここで、ＣＰＵ７２は、トルクＴｒｑを、回転速度ＮＥ、充填効率η及び点火時期をトルク出力写像に入力することによって算出する。また、ＣＰＵ７２は、トルク指令値Ｔｒｑ＊を、アクセル操作量ＰＡに応じて設定する。

次にＣＰＵ７２は、過渡フラグＦが「１」であるか否かを判定する（Ｓ１８）。過渡フラグＦは、「１」である場合に過渡運転時であることを示し、「０」である場合に過渡運転時ではないことを示す。ＣＰＵ７２は、過渡フラグＦが「０」であると判定する場合（Ｓ１８：ＮＯ）、アクセル操作量ＰＡの単位時間当たりの変化量ΔＰＡの絶対値が所定量ΔＰＡｔｈ以上であるか否かを判定する（Ｓ２０）。ここで、変化量ΔＰＡは、例えば、Ｓ２０の処理の実行タイミングにおける最新のアクセル操作量ＰＡと、同タイミングに対して単位時間だけ前におけるアクセル操作量ＰＡとの差とすればよい。

ＣＰＵ７２は、変化量ΔＰＡの絶対値が所定量ΔＰＡｔｈ以上であると判定する場合（Ｓ２０：ＹＥＳ）、過渡フラグＦに「１」を代入する（Ｓ２２）。
これに対し、ＣＰＵ７２は、過渡フラグＦが「１」であると判定する場合（Ｓ１８：ＹＥＳ）、Ｓ２２の処理の実行から所定期間が経過したか否かを判定する（Ｓ２４）。ここで、所定期間は、アクセル操作量ＰＡの単位時間当たりの変化量ΔＰＡの絶対値が所定量ΔＰＡｔｈよりも小さい規定量以下となる状態が所定時間継続するまでの期間とする。ＣＰＵ７２は、所定期間が経過したと判定する場合（Ｓ２４：ＹＥＳ）、過渡フラグＦに「０」を代入する（Ｓ２６）。

ＣＰＵ７２は、Ｓ２２，Ｓ２６の処理が完了する場合、１つのエピソードが終了したとして、強化学習によって行動価値関数Ｑを更新する（Ｓ２８）。
図４に、Ｓ２８の処理の詳細を示す。

図４に示す一連の処理において、ＣＰＵ７２は、直近に終了されたエピソード中のトルク指令値Ｔｒｑ＊、トルクＴｒｑ及び加速度Ｇｘの３つのサンプリング値の組からなる時系列データと、状態ｓ及び行動ａの時系列データと、を取得する（Ｓ３０）。ここで、直近のエピソードは、Ｓ２２の処理に続いてＳ３０の処理がなされる場合には、過渡フラグＦが継続して「０」となっていた期間であり、Ｓ２６の処理に続いてＳ３０の処理がなされる場合には、過渡フラグＦが継続して「１」となっていた期間である。

図４には、カッコの中の数字が異なるものが、異なるサンプリングタイミングにおける変数の値であることを示す。例えば、トルク指令値Ｔｒｑ＊（１）とトルク指令値Ｔｒｑ＊（２）とは、サンプリングタイミングが互いに異なるものである。また、直近のエピソードに属する行動ａの時系列データを、行動集合Ａｊとし、同エピソードに属する状態ｓの時系列データを、状態集合Ｓｊと定義する。

次にＣＰＵ７２は、直近のエピソードに属する任意のトルクＴｒｑとトルク指令値Ｔｒｑ＊との差の絶対値が規定量ΔＴｒｑ以下である旨の条件（ア）と、加速度Ｇｘが下限値ＧｘＬ以上であって上限値ＧｘＨ以下である旨の条件（イ）との論理積が真であるか否かを判定する（Ｓ３２）。

ここで、ＣＰＵ７２は、規定量ΔＴｒｑを、エピソードの開始時におけるアクセル操作量ＰＡの単位時間当たりの変化量ΔＰＡによって可変設定する。すなわち、ＣＰＵ７２は、エピソードの開始時におけるアクセル操作量ＰＡの単位時間当たりの変化量ΔＰＡに基づき過渡時に関するエピソードであると判定する場合、定常時の場合と比較して、規定量ΔＴｒｑを大きい値に設定する。

また、ＣＰＵ７２は、下限値ＧｘＬを、エピソードの開始時におけるアクセル操作量ＰＡの変化量ΔＰＡによって可変設定する。すなわち、ＣＰＵ７２は、過渡時に関するエピソードであって且つ変化量ΔＰＡが正である場合には、定常時に関するエピソードの場合と比較して、下限値ＧｘＬを大きい値に設定する。また、ＣＰＵ７２は、過渡時に関するエピソードであって且つ変化量ΔＰＡが負である場合には、定常時に関するエピソードの場合と比較して、下限値ＧｘＬを小さい値に設定する。

また、ＣＰＵ７２は、上限値ＧｘＨを、エピソードの開始時におけるアクセル操作量ＰＡの単位時間当たりの変化量ΔＰＡによって可変設定する。すなわち、ＣＰＵ７２は、過渡時に関するエピソードであって且つ変化量ΔＰＡが正である場合には、定常時に関するエピソードの場合と比較して、上限値ＧｘＨを大きい値に設定する。また、ＣＰＵ７２は、過渡時に関するエピソードであって且つ変化量ΔＰＡが負である場合には、定常時に関するエピソードの場合と比較して、上限値ＧｘＨを小さい値に設定する。

ＣＰＵ７２は、論理積が真であると判定する場合（Ｓ３２：ＹＥＳ）、報酬ｒに正の値αを代入する一方（Ｓ３４）、偽であると判定する場合（Ｓ３２：ＮＯ）、報酬ｒに負の値βを代入する（Ｓ３６）。例えば、負の値βは、正の値αと「－１」との積である。ＣＰＵ７２は、Ｓ３４，Ｓ３６の処理が完了する場合、図１に示した記憶装置７６に記憶されている関係規定データＤＲを更新する。本実施形態では、εソフト方策オン型モンテカルロ法を用いる。

すなわち、ＣＰＵ７２は、上記Ｓ３０の処理によって読み出した各状態と対応する行動との組によって定まる収益Ｒ（Ｓｊ，Ａｊ）に、それぞれ、報酬ｒを加算する（Ｓ３８）。ここで、「Ｒ（Ｓｊ，Ａｊ）」は、状態集合Ｓｊの要素の１つを状態とし行動集合Ａｊの要素の１つを行動とする収益Ｒを総括した記載である。次に、上記Ｓ３０の処理によって読み出した各状態と対応する行動との組によって定まる収益Ｒ（Ｓｊ，Ａｊ）のそれぞれについて、平均化して対応する行動価値関数Ｑ（Ｓｊ，Ａｊ）に代入する（Ｓ４０）。ここで、平均化は、Ｓ３８の処理がなされた回数に所定数を加算した値によって、Ｓ３８の処理によって算出された収益Ｒを除算する処理とすればよい。なお、収益Ｒの初期値は、対応する行動価値関数Ｑの初期値とすればよい。

次にＣＰＵ７２は、上記Ｓ３０の処理によって読み出した状態について、それぞれ、対応する行動価値関数Ｑ（Ｓｊ，Ａ）のうち、最大値となるときのスロットル開口度指令値ＴＡ＊及び遅角量ａｏｐの組である行動を、行動Ａｊ＊に代入する（Ｓ４２）。ここで、「Ａ」は、とりうる任意の行動を示す。なお、行動Ａｊ＊は、上記Ｓ３０の処理によって読み出した状態の種類に応じて各別の値となるものであるが、ここでは、表記を簡素化して、同一の記号にて記載している。

次にＣＰＵ７２は、上記Ｓ３０の処理によって読み出した状態のそれぞれについて、対応する方策π（Ａｊ｜Ｓｊ）を更新する（Ｓ４４）。すなわち、行動の総数を、「｜Ａ｜」とすると、Ｓ４２によって選択された行動Ａｊ＊の選択確率を、「１－ε＋ε／｜Ａ｜」とする。また、行動Ａｊ＊以外の「｜Ａ｜－１」個の行動の選択確率を、それぞれ「ε／｜Ａ｜」とする。Ｓ４４の処理は、Ｓ４０の処理によって更新された行動価値関数Ｑに基づく処理であることから、これにより、状態ｓと行動ａとの関係を規定する関係規定データＤＲが、収益Ｒを増加させるように更新されることとなる。

なお、ＣＰＵ７２は、Ｓ４４の処理が完了する場合、図４に示す一連の処理を一旦終了する。
図３に戻り、ＣＰＵ７２は、Ｓ２８の処理が完了する場合や、Ｓ２０，Ｓ２４の処理において否定判定する場合には、図３に示す一連の処理を一旦終了する。なお、Ｓ１０～Ｓ２６の処理は、ＣＰＵ７２が制御プログラム７４ａを実行することにより実現され、Ｓ２８の処理は、ＣＰＵ７２が学習プログラム７４ｂを実行することにより実現される。また、車両ＶＣの出荷時における関係規定データＤＲは、テストベンチで車両の走行を模擬するなどしつつ図３に示した処理と同様の処理を実行することによって予め学習がなされたデータとする。

上述したように、制御装置７０は、他の車両の制御装置７０と各種の情報の送受信を行う機能を有している。図５には、当該他の車両に送信する情報を導出するために制御装置７０が実行する処理の手順を示す。図５に示す処理は、ＲＯＭ７４に記憶された制御プログラム７４ａをＣＰＵ７２が例えば所定周期で繰り返し実行することにより実現される。

図５に示す一連の処理において、ＣＰＵ７２は、車両ＶＣの走行性能に関する指標である走行性能指標Ｉｄｐを導出する（Ｓ５０）。
本実施形態における走行性能は、車両ＶＣの加速性能を含む。そのため、走行性能指標Ｉｄｐとは、車両ＶＣの加速性能に関する指標であるともいえる。アクセル操作量ＰＡが変化する場合においてアクセル操作量ＰＡに応じて設定されるトルク指令値Ｔｒｑ＊と内燃機関１０のトルクＴｒｑとの間に乖離が生じにくい車両ＶＣが、乖離が生じやすい車両ＶＣよりも加速性能の高い車両であるといえる。そこで、例えばアクセル操作量ＰＡが増加される場合においては、アクセル操作量ＰＡの増加速度に対する内燃機関１０のトルクＴｒｑの増加速度を示す値である増加速度変化比率ＣＲｔｄが走行性能指標Ｉｄｐとして導出される。

なお、車両ＶＣが定速走行している場合においては、アクセル操作量ＰＡと、車両の速度である車速ＳＰとの関係を、走行性能指標Ｉｄｐとして導出してもよい。
次にＣＰＵ７２は、車両ＶＳの積載量である車両積載量の推定値ＬＣを取得する（Ｓ５２）。例えば、車両ＶＳの搭乗人数が多いほど大きい値が車両積載量の推定値ＬＣとして取得される。搭乗人数については、車両ＶＳの座席に埋め込まれている着座センサによる検出結果を基に導出できる。また、車室内を撮像するカメラが車両ＶＳに設けられている場合、カメラの撮像結果を基に車両ＶＳの搭乗人数を導出することもできる。

次にＣＰＵ７２は、車両ＶＳの走行距離Ｍｉｌを取得する（Ｓ５４）。例えば、車両ＶＳに設けられているオドメータによる測定結果が走行距離Ｍｉｌとして取得される。このように走行性能指標Ｉｄｐ、車両積載量の推定値ＬＣ及び走行距離Ｍｉｌの取得が完了すると、ＣＰＵ７２は、図５に示す一連の処理を一旦終了する。

本実施形態では、自車両ＶＣ１の走行性能指標Ｉｄｐと、自車両ＶＣ１と同一車種の他の車両ＶＣ２の走行性能指標Ｉｄｐとを比較することにより、自車両ＶＣ１の走行性能が他の車両ＶＣ２の走行性能よりも低いか否かの判定が行われる。図７には、こうした判定を行うために制御装置７０が実行する処理の手順を示す。図７に示す一連の処理は、ＲＯＭ７４に記憶された制御プログラム７４ａをＣＰＵ７２が実行することにより実現される。

本実施形態では、車両ＶＣの走行中では、車車間通信を行うことのできる他の車両の探索が行われている。そして、車車間通信を行うことのできる他の車両ＶＣ２を見つけた場合において、当該他の車両ＶＣ２が、自車両ＶＣ１と同一車種であることを条件に、図７に示す一連の処理が開始される。

図７に示す一連の処理において、ＣＰＵ７２は、車車間通信を行うことのできる他の車両ＶＣ２に対して他の車両ＶＣ２の走行性能指標Ｉｄｐを要求する（Ｓ７０）。この際、ＣＰＵ７２は、走行性能指標Ｉｄｐの他に、他の車両ＶＣ２の車両積載量の推定値ＬＣ及び走行距離Ｍｉｌも要求する。ここで、自車両ＶＣ１の走行性能指標Ｉｄｐを「走行性能指標Ｉｄｐ１」とし、自車両ＶＣ１の車両積載量の推定値ＬＣを「車両積載量の推定値ＬＣ１」とし、自車両ＶＣ１の走行距離を「走行距離Ｍｉｌ１」とする。また、他の車両ＶＣ２の走行性能指標Ｉｄｐを「走行性能指標Ｉｄｐ２」とし、他の車両ＶＣ２の車両積載量の推定値ＬＣを「車両積載量の推定値ＬＣ２」とし、他の車両ＶＣ２の走行距離を「走行距離Ｍｉｌ２」とする。

次にＣＰＵ７２は、要求に対する回答として、他の車両ＶＣ２の走行性能指標Ｉｄｐ２、車両積載量の推定値ＬＣ２及び走行距離Ｍｉｌ２を受信したか否かを判定する（Ｓ７２）。回答の受信が完了していない場合（Ｓ７２：ＮＯ）、ＣＰＵ７２は、回答の受信を完了するまで判定を繰り返す。一方、回答の受信が完了した場合（Ｓ７２：ＹＥＳ）、ＣＰＵ７２は、比較条件が成立しているか否かを判定する（Ｓ７４）。例えば、車両積載量の推定値ＬＣの異なる２つの車両で走行性能を比較しても、比較を通じて行った判定の精度が高いとは言いがたい。また、車両の走行距離Ｍｉｌが長いほど、車載の各種の電子機器の特性の経年変化が進む。つまり、自車両ＶＣ１と他の車両ＶＣ２とで互いに走行距離Ｍｉｌが異なる場合、自車両ＶＣ１の電子機器の特性の経年変化の進行度合いは、他の車両ＶＣ２の電子機器の特性の経年変化の進行度合いと異なる可能性がある。このような状況下で、自車両ＶＣ１と他の車両ＶＣ２との走行性能を比較しても、比較を通じて行った判定の精度が高いとは言いがたい。

そこで、例えば、ＣＰＵ７２は、自車両ＶＣ１の車両積載量の推定値ＬＣ１と他の車両ＶＣ２の車両積載量の推定値ＬＣ２との差分ΔＬＣが積載量差分判定値ΔＬＣＴｈ未満である旨の条件（ウ）と、自車両ＶＣ１の走行距離Ｍｉｌ１と他の車両ＶＣ２の走行距離Ｍｉｌ２との差分ΔＭｉｌが距離差分判定値ΔＭｉｌＴｈ未満である旨の条件（エ）との論理積が真であるか否かを判定する。この場合、論理積が真であるときに、ＣＰＵ７２は、比較条件が成立していると判定する。一方、論理積が偽であるときに、ＣＰＵ７２は、比較条件が成立していないと判定する。

比較条件が成立していない場合（Ｓ７４：ＮＯ）、ＣＰＵ７２は、図７に示す一連の処理を一旦終了する。一方、比較条件が成立している場合（Ｓ７４：ＹＥＳ）、ＣＰＵ７２は、自車両ＶＣ１の走行性能指標Ｉｄｐ１と、他の車両ＶＣ２の走行性能指標Ｉｄｐ２とを比較する（Ｓ７６）。

ここで、増加速度変化比率ＣＲｔｄを走行性能指標Ｉｄｐとして導出した場合における、自車両ＶＣ１の走行性能指標Ｉｄｐ１と他の車両ＶＣ２の走行性能指標Ｉｄｐ２との比較を説明する。アクセル操作量ＰＡの増加速度が同程度である場合、内燃機関１０のトルクＴｒｑの増加速度が高いほど、車両ＶＣの走行性能、すなわち加速性能が高いと推測できる。また、内燃機関１０のトルクＴｒｑの増加速度が同程度である場合、アクセル操作量ＰＡの増加速度が低いほど、車両ＶＣの走行性能、すなわち加速性能が高いと推測できる。そこで、ＣＰＵ７２は、自車両ＶＣ１の増加速度変化比率ＣＲｔｄが他の車両ＶＣ２の増加速度変化比率ＣＲｔｄよりも低いときには、自車両ＶＣ１の走行性能が他の車両ＶＣ２の走行性能よりも低い、すなわち自車両ＶＣ１の加速性能が他の車両ＶＣ２の加速性能よりも低いと判定する。一方、ＣＰＵ７２は、自車両ＶＣ１の増加速度変化比率ＣＲｔｄが他の車両ＶＣ２の増加速度変化比率ＣＲｔｄ以上であるときには、自車両ＶＣ１の走行性能が他の車両ＶＣ２の走行性能よりも低いと判定しない、すなわち自車両ＶＣ１の加速性能が他の車両ＶＣ２の加速性能よりも低いと判定しない。

また、車両ＶＣが定速走行しているときのアクセル操作量ＰＡと車速ＳＰとの関係を、走行性能指標Ｉｄｐとして導出した場合における、自車両ＶＣ１の走行性能指標Ｉｄｐ１と他の車両ＶＣ２の走行性能指標Ｉｄｐ２との比較を説明する。車速ＳＰが同程度である場合、アクセル操作量ＰＡが低いほど、車両ＶＣの走行性能が高いと推測できる。また、アクセル操作量ＰＡが同程度である場合、車速ＳＰが高いほど、車両ＶＣの走行性能が高いと推測できる。車速ＳＰが同程度であるにも拘わらず、アクセル操作量ＰＡが多い場合、車両ＶＣを加速させるべくアクセル操作量ＰＡが更に増加された際に、車両ＶＣの加速度Ｇｘが大きくなりにくいと推測できる。そのため、この場合において、自車両ＶＣ１の走行性能が他の車両ＶＣ２の走行性能よりも低いと判定できるときには、自車両ＶＣ１の加速性能が他の車両ＶＣ２の加速性能よりも低い可能性ありと判定できる。

次にＣＰＵ７２は、上記の比較において、自車両ＶＣ１の走行性能が他の車両ＶＣ２の走行性能よりも低いと判定したか否か、すなわち本実施形態では自車両ＶＣ１の加速性能が他の車両ＶＣ２の加速性能よりも低いと判定したか否かを判定する（Ｓ７８）。自車両ＶＣ１の走行性能が他の車両ＶＣ２の走行性能よりも低いと判定していない場合（Ｓ７８：ＮＯ）、ＣＰＵ７２は、図７に示す一連の処理を一旦終了する。一方、自車両ＶＣ１の走行性能が他の車両ＶＣ２の走行性能よりも低いと判定している場合（Ｓ７８：ＹＥＳ）、ＣＰＵ７２は、他の車両ＶＣ２の制御装置７０に対し、他の車両ＶＣ２の関係規定データＤＲを要求する（Ｓ８０）。次にＣＰＵ７２は、要求に対する回答として、他の車両ＶＣ２の関係規定データＤＲを受信したか否かを判定する（Ｓ８２）。回答の受信が完了していない場合（Ｓ８２：ＮＯ）、ＣＰＵ７２は、回答の受信が完了するまで判定を繰り返す。一方、回答の受信が完了した場合（Ｓ８２：ＹＥＳ）、ＣＰＵ７２は、記憶装置７６に記憶されている関係規定データＤＲを、他の車両ＶＣ２から受信した関係規定データＤＲに置き換える（Ｓ８４）。データ置換が完了すると、ＣＰＵ７２は、図７に示す一連の処理を一旦終了する。

なお、図６には、車車間通信を通じて他の車両から情報の送信が要求された際に制御装置７０が実行する処理の手順を示す。図６に示す処理は、ＲＯＭ７４に記憶された制御プログラム７４ａをＣＰＵ７２が例えば所定周期で繰り返し実行することにより実現される。

図６に示す一連の処理において、ＣＰＵ７２は、車車間通信によって他の車両の制御装置７０から情報の送信が要求されているか否かを判定する（Ｓ６０）。送信が要求されていない場合（Ｓ６０：ＮＯ）、ＣＰＵ７２は、図６に示す一連の処理を一旦終了する。一方、送信が要求されている場合（Ｓ６０：ＹＥＳ）、ＣＰＵ７２は、要求された情報を、車車間通信を介して他の車両の制御装置７０に送信する。例えば、走行性能指標Ｉｄｐ、車両積載量の推定値ＬＣ及び走行距離Ｍｉｌを要求された場合、ＣＰＵ７２は、図５に示した一連の処理で導出した走行性能指標Ｉｄｐ、車両積載量の推定値ＬＣ及び走行距離Ｍｉｌを、通信機７７を介して送信する。また、関係規定データＤＲを要求された場合、ＣＰＵ７２は、記憶装置７６に記憶されている関係規定データＤＲを、通信機７７を介して送信する。こうして送信が完了すると、ＣＰＵ７２は、図６に示す一連の処理を一旦終了する。

図７に示した一連の処理において、自車両ＶＣ１の走行性能が他の車両ＶＣ２の走行性能よりも低いと判定された理由が、自車両ＶＣ１内での関係規定データＤＲの更新が遅れていたためだったとする。この場合、自車両ＶＣ１よりも走行性能の高い他の車両ＶＣ２の関係規定データＤＲを、自車両ＶＣ１の記憶装置７６に記憶させると、その後に自車両ＶＣ１を走行させた際に自車両ＶＣ１の走行性能が向上しているはずである。言い換えると、関係規定データＤＲを置き換えても自車両ＶＣ１の走行性能が向上しない場合、自車両ＶＣ１の走行性能が低い要因が、自車両ＶＣ１内での関係規定データＤＲの更新の遅れではないと考えられる。図８には、関係規定データＤＲを置換した後における車両ＶＣの走行時に制御装置７０が実行する処理の手順を示す。図８に示す一連の処理は、ＲＯＭ７４に記憶された制御プログラム７４ａをＣＰＵ７２が実行することにより実現される。なお、図８に示す一連の処理は、データ置換処理の実行に伴う関係規定データＤＲの置き換えによって、車両ＶＣの走行性能が向上したか否かを判定できるデータを取得したことを条件に開始される。

図８に示す一連の処理において、ＣＰＵ７２は、データ置換処理の実行に伴う関係規定データＤＲの置き換えによって、車両ＶＣの走行性能が向上したか否か、すなわち本実施形態では車両ＶＣの加速性能が向上したかを判定する（Ｓ９０）。

ここで、走行性能指標Ｉｄｐとして上記の増加速度変化比率ＣＲｔｄが導出される場合を例として、車両ＶＣの走行性能指標Ｉｄｐが向上したか否かの判定を説明する。関係規定データＤＲの置き換え前に導出された増加速度変化比率ＣＲｔｄよりも関係規定データＤＲの置き換え後に導出された増加速度変化比率ＣＲｔｄのほうが高い場合、車両ＶＣの走行性能が向上したと判定する。一方、ＣＰＵ７２は、関係規定データＤＲの置き換え前に導出された増加速度変化比率ＣＲｔｄよりも関係規定データＤＲの置き換え後に導出された増加速度変化比率ＣＲｔｄが高くない場合、車両ＶＣの走行性能が向上したと判定しない。

また、アクセル操作量ＰＡと車速ＳＰとの関係を、走行性能指標Ｉｄｐとして導出される場合を例として、車両ＶＣの走行性能指標Ｉｄｐが向上したか否かの判定を説明する。例えば、関係規定データＤＲの置き換え前における上記関係で示される車速ＳＰを置換前車速とした場合、ＣＰＵ７２は、車速ＳＰが置換前車速と同じであるときのアクセル操作量ＰＡと、そのときの車速ＳＰとを、関係規定データＤＲの置き換え後における上記関係として導出する。そして、ＣＰＵ７２は、置き換え前における上記関係で示されるアクセル操作量ＰＡよりも置き換え後における上記関係で示されるアクセル操作量ＰＡのほうが大きい場合、車両ＶＣの走行性能が向上したと判定する。一方、ＣＰＵ７２は、置き換え前における上記関係で示されるアクセル操作量ＰＡが置き換え後における上記関係で示されるアクセル操作量ＰＡ以上である場合、車両ＶＣの走行性能が向上したと判定しない。

なお、増加速度変化比率ＣＲｔｄ、及び、アクセル操作量ＰＡと車速ＳＰとの関係などの走行性能指標Ｉｄｐは、路面勾配などのような車両の走行する路面状況によって左右されうる。そのため、上記の判定は、関係規定データＤＲの置き換え前の走行性能指標Ｉｄｐが導出された時点と同程度の路面状況で、走行性能指標Ｉｄｐを導出した上で行われる。

車両ＶＣの走行性能が向上したと判定した場合（Ｓ９０：ＹＥＳ）、ＣＰＵ７２は、図８に示す一連の処理を終了する。一方、車両ＶＣの走行性能が向上したと判定していない場合（Ｓ９０：ＮＯ）、ＣＰＵ７２は、車両ＶＣ、より詳しくは車両ＶＣの内燃機関１０に異常が発生している旨を報知する異常報知処理を実行する（Ｓ９２）。異常報知処理としては、例えば、車室内に設けられている案内装置を通じて車両ＶＣの乗員に報知する。案内装置としては、例えば、車載スピーカや車載の画面を挙げることができる。

そして、報知が行われるようになると、ＣＰＵ７２は、図８に示す一連の処理を終了する。
本実施形態の作用及び効果について説明する。

（１）自車両ＶＣ１と車車間通信が可能な範囲内に、自車両ＶＣ１と同一車種の他の車両ＶＣ２が走行している場合、自車両ＶＣ１の制御装置７０は、他の車両ＶＣ２と車車間通信を行う。すなわち、本実施形態によれば、同じ走行環境で走行していると推測できる２台の車両同士で車車間通信を行わせることができる。ここでいう走行環境とは、車両ＶＣの走行路面のμ値、走行路面の勾配及び天候などのことである。

本実施形態では、同じ走行環境で走行している他の車両ＶＣ２から走行性能指標Ｉｄｐ２を、車車間通信を介して受信すると、自車両ＶＣ１の走行性能指標Ｉｄｐ１と、他の車両ＶＣ２の走行性能指標Ｉｄｐ２とが比較される。こうした比較によって、自車両ＶＣ１の走行性能が他の車両ＶＣ２の走行性能よりも低いか否かの判定、すなわち自車両ＶＣ１の加速性能が他の車両ＶＣ２の加速性能よりも低いか否かの判定が行われる。このように走行環境が同じである他の車両ＶＣ２の走行性能指標Ｉｄｐ２と、自車両ＶＣ１の走行性能指標Ｉｄｐ１とを比較することにより、自車両ＶＣ１の走行環境を考慮した判定を行うことができる。

（２）ここで、サーバを介して自車両ＶＣ１の走行性能と他の車両ＶＣ２の走行性能とを比較する場合を考える。この場合、サーバでは、走行環境が同じ２台の車両を探索する処理が実行されることになる。当該処理を行うためには、多数の車両ＶＣから様々な情報を集める必要がある。そのため、サーバが収集するデータ量が膨大なものとなってしまう。また、サーバでは、集めた情報を用い、走行環境が同じ２台の車両を探索することになるため、比較できる２台の車両ＶＣの探索に時間を要してしまう。

この点、車車間通信によって情報の送受信できる範囲は、比較的狭い。そのため、車車間通信を行うことのできる各車両ＶＣは、互いに近くを走行していると推測できる。すなわち、車車間通信を介して情報の送受信ができることで、自車両ＶＣ１と他の車両ＶＣ２とが同じ走行環境で走行していると判断できる。したがって、自車両ＶＣ１と同じ走行環境で走行する他の車両ＶＣ２を見つけるために多大なる情報をサーバに集めることによるサーバの負荷の増大を抑制できる。また、比較を行うのに要する時間が長くなることも抑制できる。

（３）他の車両ＶＣ２の走行性能指標Ｉｄｐ２と自車両ＶＣ１の走行性能指標Ｉｄｐ１との比較によって、自車両ＶＣ１の走行性能が他の車両ＶＣ２の走行性能よりも低いと判定された場合、自車両ＶＣ１では、車両の状態と行動変数との関係の適正化が他の車両ＶＣ２よりも遅れている可能性がある。すなわち、他の車両ＶＣ２と比較し、関係規定データＤＲの更新が遅れている可能性がある。そこで、本実施形態では、自車両ＶＣ１の走行性能が他の車両ＶＣ２の走行性能よりも低いと判定された場合、自車両ＶＣ１の記憶装置７６に記憶されている関係規定データＤＲが、他の車両ＶＣ２で用いられている関係規定データＤＲに置き換えられる。これにより、関係規定データＤＲの更新の遅れに起因して自車両ＶＣ１の走行性能が低かった場合においては、関係規定データＤＲの置き換え前よりも自車両ＶＣ１の走行性能、すなわち加速性能を向上できる。

（４）自車両ＶＣ１の記憶装置７６に記憶されている関係規定データＤＲを、他の車両ＶＣ２で用いられている関係規定データＤＲに置き換えても自車両ＶＣ１の走行性能、すなわち加速性能が向上しない場合、自車両ＶＣ１の走行性能、すなわち加速性能の低い要因が車両の状態と行動変数との関係の適正化の遅れではないと考えられる。そこで、本実施形態では、関係規定データＤＲの置き換えを行った以降でも自車両ＶＣ１の走行性能、すなわち加速性能が向上しないときには、自車両ＶＣ１の構成部品に故障などの異常が発生している可能性があるため、自車両ＶＣ１に異常が発生している旨が報知される。これにより、車両ＶＣの修理工場などへの入庫を、車両ＶＣの所有者や乗員に促すことができる。

（５）積載量が大きく異なる車両ＶＣ同士で走行性能指標Ｉｄｐの比較を行っても、自車両ＶＣ１での強化学習による行動価値関数Ｑの更新が、他の車両ＶＣ２での強化学習による行動価値関数Ｑの更新よりも遅れているか否かを判断できない。言い換えると、積載量が同程度の車両ＶＣ同士で走行性能指標Ｉｄｐの比較を行うことにより、自車両ＶＣ１での強化学習による行動価値関数Ｑの更新が、他の車両ＶＣ２での強化学習による行動価値関数Ｑの更新よりも遅れているか否かを判断できる。そこで、本実施形態では、他の車両ＶＣ２の積載量の推定値ＬＣ２と自車両ＶＣ１の積載量の推定値ＬＣとの差分ΔＬＣが積載量差分判定値ΔＬＣＴｈ未満であることを条件に、当該比較が行われるようになっている。これにより、自車両ＶＣ１での強化学習による行動価値関数Ｑの更新が、他の車両ＶＣ２での強化学習による行動価値関数Ｑの更新よりも遅れているか否かの判断の精度を高くできる。

（６）車両ＶＣの走行距離Ｍｉｌが長いほど、車両ＶＣの構成部品の特性の経時変化の度合いが大きいと推測できる。そして、車両ＶＣの構成部品の特性の経時変化の度合いが大きく異なる車両ＶＣ同士で走行性能指標Ｉｄｐの比較を行っても、自車両ＶＣ１での強化学習による行動価値関数Ｑの更新が、他の車両ＶＣ２での強化学習による行動価値関数Ｑの更新よりも遅れているか否かを判断できない。言い換えると、構成部品の特性の経時変化の度合いが同程度の車両ＶＣ同士で走行性能指標Ｉｄｐの比較を行うことにより、自車両ＶＣ１での強化学習による行動価値関数Ｑの更新が、他の車両ＶＣ２での強化学習による行動価値関数Ｑの更新よりも遅れているか否かを判断できる。そこで、本実施形態では、他の車両ＶＣ２の走行距離Ｍｉｌ２と自車両ＶＣ１の走行距離Ｍｉｌ１との差分ΔＭｉｌが距離差分判定値ΔＭｉｌＴｈ未満であることを条件に、当該比較が行われるようになっている。これにより、自車両ＶＣ１での強化学習による行動価値関数Ｑの更新が、他の車両ＶＣ２での強化学習による行動価値関数Ｑの更新よりも遅れているか否かの判断の精度を高くできる。

（第２実施形態）
以下、第２実施形態について、第１実施形態との相違点を中心に図面を参照しつつ説明する。

図９には、自車両ＶＣ１の走行性能が他の車両ＶＣ２の走行性能よりも低いか否かの判定、すなわち自車両ＶＣ１の加速性能が他の車両ＶＣ２の加速性能よりも低いか否かの判定を行うために制御装置７０が実行する処理の手順を示す。図９に示す処理は、ＲＯＭ７４に記憶された制御プログラム７４ａをＣＰＵ７２が例えば所定周期で繰り返し実行することにより実現される。

本実施形態では、車両ＶＣの走行中では、車車間通信を行うことのできる他の車両の探索が行われている。そして、車車間通信を行うことのできる他の車両ＶＣ２を見つけた場合において、当該他の車両ＶＣ２が、自車両ＶＣ１と同一車種であることを条件に、図９に示す一連の処理が開始される。

図９に示す一連の処理において、ＣＰＵ７２は、Ｓ７０，Ｓ７２の処理の実行によって他の車両ＶＣ２の走行性能指標Ｉｄｐ２を取得すると、比較条件が成立しているか否かを判定する（Ｓ７４）。そして、比較条件が成立する場合（Ｓ７４：ＹＥＳ）、ＣＰＵ７２は、Ｓ７６，Ｓ７８の処理を実行する。自車両ＶＣ１の走行性能が他の車両ＶＣ２の走行性能よりも低くない場合、すなわち自車両ＶＣ１の加速性能が他の車両ＶＣ２の加速性能よりも低くない場合（Ｓ７８：ＮＯ）、ＣＰＵ７２は、上記の正の値αとして値α１を設定し、上記の負の値βとして値β１を設定する（Ｓ８６）。一方、自車両ＶＣ１の走行性能が他の車両ＶＣ２の走行性能よりも低い場合、すなわち自車両ＶＣ１の加速性能が他の車両ＶＣ２の加速性能よりも低い場合（Ｓ７８：ＹＥＳ）、ＣＰＵ７２は、上記の正の値αとして値α２を設定し、上記の負の値βとして値β２を設定する（Ｓ８８）。各値α１，α２は正の値であり、値α２は値α１よりも大きい。各値β１，β２は負の値であり、値β２の絶対値は値β１の絶対値よりも大きい。このように正の値α及び負の値βを設定すると、ＣＰＵ７２は、図９に示す一連の処理を終了する。

なお、本実施形態では、上記第１実施形態の効果（１）、（２）、（５）及び（６）に加え、以下に示す効果をさらに得ることができる。
（７）自車両ＶＣ１の加速性能が他の車両ＶＣ２の加速性能よりも低いと判定された場合、自車両ＶＣ１の加速性能が他の車両ＶＣ２の加速性能よりも低いと判定されない場合と比較し、正の値α及び負の値βの絶対値がそれぞれ大きくなる。これにより、自車両ＶＣ１の加速性能が他の車両ＶＣ２の加速性能よりも低いと判定された場合、自車両ＶＣ１の加速性能が基準性能よりも高いときに与える報酬ｒが、自車両ＶＣ１の加速性能が他の車両ＶＣ２の加速性能よりも低いと判定されていない場合よりも大きくなる。これにより、関係規定データＤＲの更新速度を高め、車両ＶＣの状態と行動変数との関係の適正化を早めることができる。その結果、関係規定データＤＲの更新の遅れに起因して自車両ＶＣ１の走行性能が低かった場合においては、自車両ＶＣ１の加速性能の向上を期待できる。

（８）上記のように報酬ｒを大きくすることによって車両ＶＣの状態と行動変数との関係の適正化を早めることにより、自車両ＶＣ１の加速性能が高くなる。このように自車両ＶＣ１の加速性能が高くなった状態で、再び、車車間通信で得た情報を基に、自車両ＶＣ１の加速性能が他の車両ＶＣ２の加速性能よりも低いか否かの判定が行われることがある。この際、自車両ＶＣ１の加速性能が他の車両ＶＣ２の加速性能よりも低くなかった場合には、大きな値（すなわち、値α２）が報酬ｒとして与えられる状態が解消される。すなわち、正の値αが値α１に戻されるとともに、負の値βが値β１に戻される。これにより、関係規定データＤＲが過剰に更新されることを抑制できる。

（第３実施形態）
以下、第３実施形態について、第１実施形態との相違点を中心に図面を参照しつつ説明する。

本実施形態では、走行性能とは、車両ＶＣのエネルギの利用効率のことである。そのため、本実施形態で導出される走行性能指標Ｉｄｐとは、車両ＶＣのエネルギの利用効率に関する指標である。

ここで、一般的に、内燃機関１０のトルクＴｒｑを急変させるような運転が車両ＶＣで行われる場合、車両ＶＣのエネルギの利用効率が低くなる、すなわち燃費が低くなる。そのため、アクセル操作量ＰＡの変更に伴って内燃機関１０のトルクＴｒｑが変化するに際し、トルクＴｒｑの変化速度が低い車両ＶＣを、トルクＴｒｑの変化速度が高い車両ＶＣよりもエネルギの利用効率の高い車両であるということができる。そこで、例えば、アクセル操作量ＰＡの変化と内燃機関１０のトルクＴｒｑの変化との関係が、走行性能指標Ｉｄｐとして導出される。具体的には、上記の増加速度変化比率ＣＲｔｄを、走行性能指標Ｉｄｐとして導出してもよい。この場合、エネルギの利用効率の高い車両ＶＳでは、利用効率の高くない車両ＶＣよりも増加速度変化比率ＣＲｔｄが小さくなりやすい。

次に、図４を参照し、本実施形態で実行される更新処理について説明する。
図４に示す一連の処理において、ＣＰＵ７２は、上記第１実施形態の場合と同様に、直近に終了されたエピソード中のトルク指令値Ｔｒｑ＊、トルクＴｒｑ及び加速度Ｇｘの３つのサンプリング値の組からなる時系列データと、状態ｓ及び行動ａの時系列データと、を取得する（Ｓ３０）。次にＣＰＵ７２は、直近のエピソードに属する任意のトルクＴｒｑとトルク指令値Ｔｒｑ＊との差の絶対値が規定量ΔＴｒｑ以下である旨の条件（ア）と、加速度Ｇｘが下限値ＧｘＬ以上であって上限値ＧｘＨ以下である旨の条件（イ）との論理積が真であるか否かを判定する（Ｓ３２）。

ここで、上記第１実施形態の場合と同様に、ＣＰＵ７２は、下限値ＧｘＬを、エピソードの開始時におけるアクセル操作量ＰＡの変化量ΔＰＡによって可変設定する。すなわち、ＣＰＵ７２は、過渡時に関するエピソードであって且つ変化量ΔＰＡが正である場合には、定常時に関するエピソードの場合と比較して、下限値ＧｘＬを大きい値に設定する。また、ＣＰＵ７２は、過渡時に関するエピソードであって且つ変化量ΔＰＡが負である場合には、定常時に関するエピソードの場合と比較して、下限値ＧｘＬを小さい値に設定する。

また、上記第１実施形態の場合と同様に、ＣＰＵ７２は、上限値ＧｘＨを、エピソードの開始時におけるアクセル操作量ＰＡの単位時間当たりの変化量ΔＰＡによって可変設定する。すなわち、ＣＰＵ７２は、過渡時に関するエピソードであって且つ変化量ΔＰＡが正である場合には、定常時に関するエピソードの場合と比較して、上限値ＧｘＨを大きい値に設定する。また、ＣＰＵ７２は、過渡時に関するエピソードであって且つ変化量ΔＰＡが負である場合には、定常時に関するエピソードの場合と比較して、上限値ＧｘＨを小さい値に設定する。

ただし、上記第１実施形態では車両ＶＣの加速性能に関する指標として走行性能指標Ｉｄｐが導出されるのに対し、本実施形態では、車両ＶＣのエネルギの利用効率に関する指標として走行性能指標Ｉｄｐが導出される。そのため、第１実施形態の場合と比較して下限値ＧｘＬと上限値ＧｘＨとの差分が小さくなるように、下限値ＧｘＬ及び上限値ＧｘＨがそれぞれ設定される。これにより、Ｓ３２の判定を肯定判定とする加速度Ｇｘの範囲が小さくなる。

ＣＰＵ７２は、論理積が真であると判定する場合（Ｓ３２：ＹＥＳ）、報酬ｒに正の値αを代入する一方（Ｓ３４）、偽であると判定する場合（Ｓ３２：ＮＯ）、報酬ｒに負の値βを代入する（Ｓ３６）。そして、ＣＰＵ７２は、Ｓ３８～Ｓ４４の処理を実行すると、図４に示した一連の処理を終了する。

本実施形態では、上記第１実施形態の効果（２）、（４）～（６）に加え、以下に示す効果をさらに得ることができる。
（９）自車両ＶＣ１と車車間通信が可能な範囲内に、自車両ＶＣ１と同一車種の他の車両ＶＣ２が走行している場合、自車両ＶＣ１の制御装置７０は、他の車両ＶＣ２と車車間通信を行う。すなわち、本実施形態によれば、同じ走行環境で走行していると推測できる２台の車両同士で車車間通信を行わせることができる。ここでいう走行環境とは、車両ＶＣの走行路面のμ値、走行路面の勾配及び天候などのことである。

本実施形態では、同じ走行環境で走行している他の車両ＶＣ２から走行性能指標Ｉｄｐ２を、車車間通信を介して受信すると、自車両ＶＣ１の走行性能指標Ｉｄｐ１と、他の車両ＶＣ２の走行性能指標Ｉｄｐ２とを比較することにより、自車両ＶＣ１のエネルギの利用効率が他の車両ＶＣ２のエネルギの利用効率よりも低いか否かの判定が行われる。このように走行環境が同じである他の車両ＶＣ２の走行性能指標Ｉｄｐ２と、自車両ＶＣ１の走行性能指標Ｉｄｐ１とを比較することにより、自車両ＶＣ１の走行環境を考慮した判定を行うことができる。

（１０）他の車両ＶＣ２の走行性能指標Ｉｄｐ２と自車両ＶＣ１の走行性能指標Ｉｄｐ１との比較によって、自車両ＶＣ１のエネルギの利用効率が他の車両ＶＣ２のエネルギの利用効率よりも低いと判定された場合、自車両ＶＣ１では、車両の状態と行動変数との関係の適正化が他の車両ＶＣ２よりも遅れている可能性がある。すなわち、他の車両ＶＣ２と比較し、関係規定データＤＲの更新が遅れている可能性がある。そこで、本実施形態では、自車両ＶＣ１のエネルギの利用効率が他の車両ＶＣ２のエネルギの利用効率よりも低いと判定された場合、自車両ＶＣ１の記憶装置７６に記憶されている関係規定データＤＲが、他の車両ＶＣ２で用いられている関係規定データＤＲに置き換えられる。これにより、関係規定データＤＲの更新の遅れに起因して自車両ＶＣ１の走行性能が低かった場合においては、関係規定データＤＲの置き換え前よりも自車両ＶＣ１のエネルギの利用効率を向上できる。

（第４実施形態）
以下、第４実施形態について、第２実施形態との相違点を中心に図面を参照しつつ説明する。

図９を参照し、自車両ＶＣ１のエネルギの利用効率が他の車両ＶＣ２のエネルギの利用効率よりも低いか否かの判定を行うために制御装置７０が実行する処理の手順について説明する。

図９に示す一連の処理において、ＣＰＵ７２は、Ｓ７０，Ｓ７２の処理の実行によって他の車両ＶＣ２の走行性能指標Ｉｄｐ２を取得すると、比較条件が成立しているか否かを判定する（Ｓ７４）。そして、比較条件が成立する場合（Ｓ７４：ＹＥＳ）、ＣＰＵ７２は、Ｓ７６，Ｓ７８の処理を実行する。自車両ＶＣ１の走行性能が他の車両ＶＣ２の走行性能よりも低くない場合、すなわち自車両ＶＣ１のエネルギの利用効率が他の車両ＶＣ２のエネルギの利用効率よりも低くない場合（Ｓ７８：ＮＯ）、ＣＰＵ７２は、上記の正の値αとして値α１を設定し、上記の負の値βとして値β１を設定する（Ｓ８６）。一方、自車両ＶＣ１の走行性能が他の車両ＶＣ２の走行性能よりも低い場合、すなわち自車両ＶＣ１のエネルギの利用効率が他の車両ＶＣ２のエネルギの利用効率よりも低い場合（Ｓ７８：ＹＥＳ）、ＣＰＵ７２は、上記の正の値αとして値α２を設定し、上記の負の値βとして値β２を設定する（Ｓ８８）。各値α１，α２は正の値であり、値α２は値α１よりも大きい。各値β１，β２は負の値であり、値β２の絶対値は値β１の絶対値よりも大きい。このように正の値α及び負の値βを設定すると、ＣＰＵ７２は、図９に示す一連の処理を終了する。

なお、本実施形態では、上記第１実施形態の効果（２）、（５）、（６）及び（９）に加え、以下に示す効果をさらに得ることができる。
（１１）自車両ＶＣ１のエネルギの利用効率が他の車両ＶＣ２のエネルギの利用効率よりも低いと判定された場合、自車両ＶＣ１のエネルギの利用効率が他の車両ＶＣ２のエネルギの利用効率よりも低いと判定されない場合と比較し、正の値α及び負の値βの絶対値がそれぞれ大きくなる。これにより、自車両ＶＣ１の走行性能が他の車両ＶＣ２の走行性能よりも低いと判定された場合、自車両ＶＣ１のエネルギの利用効率が基準性能よりも高いときに与える報酬ｒが、自車両ＶＣ１のエネルギの利用効率が他の車両ＶＣ２のエネルギの利用効率よりも低いと判定されていない場合よりも大きくなる。これにより、関係規定データＤＲの更新速度を高め、車両ＶＣの状態と行動変数との関係の適正化を早めることができる。その結果、関係規定データＤＲの更新の遅れに起因して自車両ＶＣ１の走行性能が低かった場合においては、自車両ＶＣ１のエネルギの利用効率の向上を期待できる。

（１２）上記のように報酬ｒを大きくすることによって車両ＶＣの状態と行動変数との関係の適正化を早めることにより、自車両ＶＣ１のエネルギの利用効率が高くなる。このように自車両ＶＣ１のエネルギの利用効率が高くなった状態で、再び、車車間通信で得た情報を基に、自車両ＶＣ１のエネルギの利用効率が他の車両ＶＣ２のエネルギの利用効率よりも低いか否かの判定が行われることがある。この際、自車両ＶＣ１のエネルギの利用効率が他の車両ＶＣ２のエネルギの利用効率よりも低くなかった場合には、大きな値（すなわち、値α２）が報酬ｒとして与えられる状態が解消される。すなわち、正の値αが値α１に戻されるとともに、負の値βが値β１に戻される。これにより、関係規定データＤＲが過剰に更新されることを抑制できる。

（対応関係）
上記実施形態における事項と、上記「課題を解決するための手段」の欄に記載した事項との対応関係は、次の通りである。以下では、「課題を解決するための手段」の欄に記載した解決手段の番号毎に、対応関係を示している。［１～７］実行装置は、図１において、ＣＰＵ７２及びＲＯＭ７４に対応し、記憶装置は、記憶装置７６に対応する。指標導出処理は図５のＳ５０の処理に対応し、指標受信処理は図７のＳ７０，Ｓ７２の処理に対応し、性能判定処理は図７及び図９のＳ７６，Ｓ７８の処理に対応する。取得処理は図３のＳ１０，Ｓ１６の処理に対応し、操作処理は図３のＳ１６の処理に対応し、報酬算出処理は図４のＳ３２～Ｓ３６の処理に対応し、更新処理は図４のＳ３８～Ｓ４４の処理に対応する。更新写像は、学習プログラム７４ｂのうちＳ３８～Ｓ４４の処理を実行する指令によって規定された写像に対応する。データ置換処理は、図７のＳ８４の処理に対応する。異常報知処理は、図８のＳ９２の処理に対応する。積載量取得処理は図５のＳ５２の処理に対応し、積載量受信処理は、図７のＳ７０において車両積載量の推定値の送信が要求された場合の図６のＳ６２の処理に対応する。走行距離取得処理は図５のＳ５４の処理に対応し、走行距離受信処理は、図７のＳ７０において走行距離の送信が要求された場合の図６のＳ６２の処理に対応する。

（変更例）
上記各実施形態は、以下のように変更して実施することができる。上記実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。

「異常報知処理について」
・異常報知処理は、車両ＶＣに何らかの異常が発生している旨を、車両の販売会社や工場に知らせる処理であってもよい。例えば、制御装置７０は、販売会社や工場のサーバに通信機７７を介して、異常が発生している旨の信号を送信する。この際、制御装置７０は、自車両ＶＣ１を特定できる情報も送信することが好ましい。これにより、販売会社や工場では、異常の発生している可能性のある車両ＶＣを特定できると共に、当該車両ＶＣの所有者に対して入庫を促すことができるようになる。

・上記第１実施形態及び第３実施形態では、自車両ＶＣ１の記憶装置７６に記憶されている関係規定データＤＲを他の車両ＶＣ２の関係規定データＤＲに置き換えても、自車両ＶＣ１の走行性能が向上したと判定できないときに異常報知処理を実行するようにしている。しかし、関係規定データＤＲを他の車両ＶＣ２の関係規定データＤＲに置き換えた後で、自車両ＶＣ１の走行性能が向上したか否かの判定結果に拘わらず、異常報知処理を実行しなくてもよい。このように異常報知処理を実行しない場合、自車両ＶＣ１の走行性能が向上したか否かの判定自体を行わなくてもよい。

・性能判定処理の実行によって、自車両ＶＣ１の走行性能が他の車両ＶＣ２の走行性能よりも低いと判定したときには、関係規定データＤＲの置換や報酬ｒの与え方の変更を行う代わりに、異常報知処理を実行するようにしてもよい。

「比較条件の成立（Ｓ７４）において」
・自車両ＶＣ１の車両積載量の推定値ＬＣ１と他の車両ＶＣ２の車両積載量の推定値ＬＣ２との差分ΔＬＣが積載量差分判定値ΔＬＣＴｈ未満であること、及び、自車両ＶＣ１の走行距離Ｍｉｌ１と他の車両ＶＣ２の走行距離Ｍｉｌ２との差分ΔＭｉｌが距離差分判定値ΔＭｉｌＴｈ未満であること以外の条件を、比較条件に更に加えてもよい。例えば、自車両ＶＣ１の進行方向と他の車両ＶＣ２の進行方向とが同じであることを、比較条件に加えてもよい。また例えば、自車両ＶＣ１で使用される燃料の性状と他の車両ＶＣ２で使用される燃料の性状との乖離度合いが許容範囲内であることを、比較条件に加えてもよい。

・自車両ＶＣ１の車両積載量の推定値ＬＣ１と他の車両ＶＣ２の車両積載量の推定値ＬＣ２との差分ΔＬＣが積載量差分判定値ΔＬＣＴｈ未満であることが比較条件に含まれるのであれば、自車両ＶＣ１の走行距離Ｍｉｌ１と他の車両ＶＣ２の走行距離Ｍｉｌ２との差分ΔＭｉｌが距離差分判定値ΔＭｉｌＴｈ未満であることを比較条件に含ませるのは必須ではない。

・自車両ＶＣ１の走行距離Ｍｉｌ１と他の車両ＶＣ２の走行距離Ｍｉｌ２との差分ΔＭｉｌが距離差分判定値ΔＭｉｌＴｈ未満であることが比較条件に含まれるのであれば、自車両ＶＣ１の車両積載量の推定値ＬＣ１と他の車両ＶＣ２の車両積載量の推定値ＬＣ２との差分ΔＬＣが積載量差分判定値ΔＬＣＴｈ未満であることを比較条件に含ませるのは必須ではない。

・図７や図９に示した一連の処理において、Ｓ７４の判定を省略してもよい。すなわち、他の車両ＶＣ２から走行性能指標Ｉｄｐ２を受信できたら、比較条件が成立しているか否かに拘わらず、自車両ＶＣ１の走行性能指標Ｉｄｐ１と、他の車両ＶＣ２の走行性能指標Ｉｄｐ２との比較を行うようにしてもよい。

「走行性能指標について」
・上記第１実施形態及び第２実施形態では、車両ＶＣの加速性能に関する指標を走行性能指標Ｉｄｐとして導出している。この場合の走行性能指標Ｉｄｐは、車両ＶＣの加速性能を表すデータであれば、上記第１実施形態及び第２実施形態で説明した増加速度変化比率ＣＲｔｄとは異なるデータを、走行性能指標Ｉｄｐとして導出するようにしてもよい。

・上記第３実施形態及び第４実施形態では、車両ＶＣのエネルギの利用効率に関する指標を走行性能指標Ｉｄｐとして導出している。この場合の走行性能指標Ｉｄｐは、車両ＶＣのエネルギの利用効率を表すデータであれば、上記第３実施形態及び第４実施形態で説明した増加速度変化比率ＣＲｔｄとは異なるデータを、走行性能指標Ｉｄｐとして導出するようにしてもよい。

「車両の走行性能について」
・車両ＶＳの加速性能及びエネルギの利用効率とは異なる性能を、車両ＶＣの走行性能としてもよい。例えば、車両ＶＣの排気性能を走行性能としてもよい。この場合、指標導出処理では、排気性能に関する指標が走行性能指標Ｉｄｐとして導出されることになる。そして、比較判定処理では、自車両ＶＣ１の排気性能に関する指標と、他の車両ＶＣ２の排気性能に関する指標とを比較することにより、自車両ＶＣ１の排気性能が他の車両ＶＣ２の排気性能よりも低いか否かが判定されることになる。

「テーブル形式のデータの次元削減について」
・テーブル形式のデータの次元削減手法としては、上記各実施形態において例示したものに限らない。例えばアクセル操作量ＰＡが最大値となることはまれであることから、アクセル操作量ＰＡが規定量以上となる状態については行動価値関数Ｑを定義せず、アクセル操作量ＰＡが規定量以上となる場合のスロットル開口度指令値ＴＡ＊などは、別途適合してもよい。また例えば、行動のとりうる値からスロットル開口度指令値ＴＡ＊が規定値以上となるものを除くなどして、次元削減をしてもよい。

「関係規定データについて」
・上記各実施形態では、行動価値関数Ｑを、テーブル形式の関数としたが、これに限らない。例えば、関数近似器を用いてもよい。

・例えば、行動価値関数Ｑを用いる代わりに、方策πを、状態ｓ及び行動ａを独立変数とし、行動ａをとる確率を従属変数とする関数近似器にて表現し、関数近似器を定めるパラメータを、報酬ｒに応じて更新してもよい。

「操作処理について」
・例えば「関係規定データについて」の欄に記載したように、行動価値関数を関数近似器とする場合、上記各実施形態におけるテーブル型式の関数の独立変数となる行動についての離散的な値の組の全てについて、状態ｓとともに行動価値関数Ｑに入力することによって、行動価値関数Ｑを最大化する行動ａを特定すればよい。その場合、例えば、主として特定された行動ａを操作に採用しつつも、所定の確率でそれ以外の行動を選択すればよい。

・例えば「関係規定データについて」の欄に記載したように、方策πを、状態ｓ及び行動ａを独立変数とし、行動ａをとる確率を従属変数とする関数近似器とする場合、方策πによって示される確率に基づき行動ａを選択すればよい。

「更新写像について」
・Ｓ３８～Ｓ４４の処理においては、εソフト方策オン型モンテカルロ法によるものを例示したが、これに限らない。例えば、方策オフ型モンテカルロ法によるものであってもよい。もっとも、モンテカルロ法にも限らず、例えば、方策オフ型ＴＤ法を用いたり、また例えばＳＡＲＳＡ法のように方策オン型ＴＤ法を用いたり、また例えば、方策オン型の学習として適格度トレース法を用いたりしてもよい。

・例えば「関係規定データについて」の欄に記載したように、方策πを関数近似器を用いて表現し、これを報酬ｒに基づき直接更新する場合には、方策勾配法などを用いて更新写像を構成すればよい。

・行動価値関数Ｑと方策πとのうちの何れか一方のみを、報酬ｒによる直接の更新対象とするものに限らない。例えば、アクター・クリティック法のように、行動価値関数Ｑ及び方策πをそれぞれ更新してもよい。また、アクター・クリティック法においては、これに限らず、例えば行動価値関数Ｑに代えて価値関数Ｖを更新対象としてもよい。

・上記各実施形態では、強化学習に従った更新写像によって関係規定データを用いて電子機器の操作を行っている。しかし、車両の走行によって得られた情報に基づいて車両の走行性能に関わるパラメータを学習させる車両であれば、車両用制御装置を、こうした関係規定データを用いないで電子機器の操作が制御される車両に適用してもよい。

「行動変数について」
・上記各実施形態では、行動変数としてのスロットルバルブの開口度に関する変数として、スロットル開口度指令値ＴＡ＊を例示したが、これに限らない。例えば、アクセル操作量ＰＡに対するスロットル開口度指令値ＴＡ＊の応答性を、無駄時間及び２次遅れフィルタにて表現し、無駄時間と、２次遅れフィルタを規定する２つの変数との合計３つの変数を、スロットルバルブの開口度に関する変数としてもよい。ただし、その場合、状態変数は、アクセル操作量ＰＡの時系列データに代えて、アクセル操作量ＰＡの単位時間当たりの変化量とすることが望ましい。

・上記各実施形態では、行動変数として、スロットルバルブの開口度に関する変数を例示したが、これに限らない。例えば、スロットルバルブの開口度に関する変数に加えて、点火時期に関する変数、空燃比制御に関する変数及び変速装置５０の変速比を用いてもよい。

・下記「内燃機関について」の欄に記載したように、圧縮着火式の内燃機関の場合、スロットルバルブの開口度に関する変数に代えて噴射量に関する変数を用いればよい。またこれに加えて、例えば、噴射時期に関する変数や、１燃焼サイクルにおける噴射回数に関する変数、１燃焼サイクルにおける１つの気筒のための時系列的に隣接した２つの燃料噴射のうちの一方の終了タイミングと他方の開始タイミングとの間の時間間隔に関する変数を用いてもよい。

・例えば変速装置５０が有段変速装置の場合、クラッチの係合状態を油圧によって調整するためのソレノイドバルブの電流値などを行動変数としてもよい。
・下記「電子機器について」の欄に記載したように、行動変数に応じた操作の対象に回転電機が含まれる場合、行動変数に回転電機のトルクや電流を含めればよい。すなわち、推力生成装置の負荷に関する変数である負荷変数としては、スロットルバルブの開口度に関する変数や噴射量に限らず、回転電機のトルクや電流であってもよい。

・下記「電子機器について」の欄に記載したように、行動変数に応じた操作の対象に、ロックアップクラッチ４２を含める場合、行動変数にロックアップクラッチ４２の係合状態を示す変数を含めてもよい。

「状態について」
・上記各実施形態では、アクセル操作量ＰＡの時系列データを、等間隔でサンプリングされた６個の値からなるデータとしたが、これに限らない。互いに異なるサンプリングタイミングにおける２個以上のサンプリング値からなるデータであればよく、この際、３個以上のサンプリング値からなるデータや、サンプリング間隔が等間隔であるデータであることがより望ましい。

・アクセル操作量に関する状態変数としては、アクセル操作量ＰＡの時系列データに限らず、例えば「行動変数について」の欄に記載したように、アクセル操作量ＰＡの単位時間当たりの変化量などであってもよい。

・例えば「行動変数について」の欄に記載したように、ソレノイドバルブの電流値を行動変数とする場合、状態に、変速装置の入力軸５２の回転速度や出力軸５４の回転速度、ソレノイドバルブによって調整される油圧を含めればよい。また例えば「行動変数について」の欄に記載したように、回転電機のトルクや出力を行動変数とする場合、状態に、バッテリの充電率や温度を含めればよい。また例えば「行動変数について」の欄に記載したように、コンプレッサの負荷トルクや空調装置の消費電力を行動に含める場合、状態に、車室内の温度を含めればよい。

「電子機器について」
・行動変数に応じた操作の対象となる内燃機関の電子機器としては、スロットルバルブ１４に限らない。例えば、点火装置２６や燃料噴射弁１６であってもよい。

・推力生成装置と駆動輪との間の駆動系装置を、行動変数に応じた操作の対象となる電子機器としてもよい。この場合、変速装置５０やロックアップクラッチ４２を、行動変数に応じた操作の対象となる電子機器とすればよい。

変速装置５０を、行動変数に応じた操作の対象となる電子機器とする場合、車両ＶＣの加速性能を高めるためには、変速装置５０の変速比として大きい値、すなわち変速段として低速側の変速段が選択されやすくなるように関係規定データＤＲを更新すればよい。一方、車両ＶＣのエネルギの利用効率を高めるためには、変速装置５０の変速比として小さい値、すなわち変速段として高速側の変速段が選択されやすくなるように関係規定データＤＲを更新すればよい。

ロックアップクラッチ４２を、行動変数に応じた操作の対象となる電子機器とする場合、車両ＶＣのエネルギの利用効率を高めるためには、車速がより低い段階からロックアップクラッチ４２を係合状態とできるように関係規定データＤＲを更新すればよい。

・下記「車両について」の欄に記載したように、車両が推力生成装置として回転電機を備える場合、行動変数に応じた操作の対象となる電子機器を、回転電機に接続されるインバータなどの電力変換回路としてもよい。もっとも、車載駆動系の電子機器に限らず、例えば車載空調装置などであってもよい。この場合であっても、例えば車載空調装置が推力生成装置の回転動力によって駆動される場合、推力生成装置の動力のうち駆動輪６０に供給される動力が車載空調装置の負荷トルクに依存することから、車載空調装置の負荷トルクを行動変数に含めることなどが有効である。また例えば車載空調装置が推力生成装置の回転動力を利用しないものであったとしても、エネルギ利用効率に影響することから、行動変数に車載空調装置の消費電力を加えることは有効である。

「車両用制御プログラム」
・上記各実施形態では、制御装置７０のＲＯＭ７４に予め記憶されている制御プログラム７４ａ及び学習プログラム７４ｂをＣＰＵ７２が実行することにより、自車両ＶＣ１の走行性能と他の車両ＶＣ２の走行性能との比較が行われるようになっている。しかし、当該比較を行うのに必要な各種処理を含む車両制御用プログラムは、ＲＯＭ７４に予め記憶されていなくてもよい。例えば、車両ＶＣの所有者の指示によって、当該車両制御用プログラムを車外のサーバから制御装置７０にインストールさせるようにしてもよい。この場合、当該車両制御用プログラムは、制御装置７０の不揮発性メモリに記憶される。そして、不揮発性メモリに記憶された車両制御用プログラムをＣＰＵ７２に実行させることにより、上記各実施形態と同等の効果を得ることができる。

「実行装置について」
・実行装置としては、ＣＰＵ７２とＲＯＭ７４とを備えて、ソフトウェア処理を実行するものに限らない。例えば、上記各実施形態においてソフトウェア処理されたものの少なくとも一部を、ハードウェア処理する例えばＡＳＩＣなどの専用のハードウェア回路を備えてもよい。すなわち、実行装置は、以下の（ａ）～（ｃ）のいずれかの構成であればよい。（ａ）上記処理の全てを、プログラムに従って実行する処理装置と、プログラムを記憶するＲＯＭなどのプログラム格納装置とを備える。（ｂ）上記処理の一部をプログラムに従って実行する処理装置及びプログラム格納装置と、残りの処理を実行する専用のハードウェア回路とを備える。（ｃ）上記処理の全てを実行する専用のハードウェア回路を備える。ここで、処理装置およびプログラム格納装置を備えたソフトウェア実行装置や、専用のハードウェア回路は複数であってもよい。

「記憶装置について」
・上記各実施形態では、関係規定データＤＲが記憶される記憶装置７６と、学習プログラム７４ｂや制御プログラム７４ａが記憶される記憶装置（ＲＯＭ７４）とを別の記憶装置としたが、これに限らない。

「内燃機関について」
・内燃機関としては、燃料噴射弁として吸気通路１２に燃料を噴射するポート噴射弁を備えるものに限らず、燃焼室２４に燃料を直接噴射する筒内噴射弁を備えるものであってもよく、また例えば、ポート噴射弁及び筒内噴射弁の双方を備えるものであってもよい。

・内燃機関としては、火花点火式内燃機関に限らず、例えば燃料として軽油などを用いる圧縮着火式内燃機関などであってもよい。
「車両について」
・車両は、車両の推力生成装置として内燃機関のみを備えたものではなく、例えば内燃機関及び回転電気の双方を備えるハイブリッド車両であってもよい。また例えば、車両は、電気自動車や燃料電池車のように、推力生成装置が回転電機のみの車両であってもよい。

１０…内燃機関
１４…スロットルバルブ
１６…燃料噴射弁
１８…吸気バルブ
２６…点火装置
５０…変速装置
７０…制御装置
７２…ＣＰＵ
７４…ＲＯＭ
７６…記憶装置
７７…通信機
８８…アクセルセンサ
９０…加速度センサ
ＶＣ，ＶＣ１，ＶＣ２…車両

Claims

他の車両との直接通信である車車間通信の機能を有する車両に適用される車両用制御装置であって、
実行装置を備え、
前記実行装置は、
自車両の走行性能に関する指標である走行性能指標を導出する指標導出処理と、
前記車車間通信によって、前記他の車両から当該他の車両の前記走行性能指標を受信する指標受信処理と、
前記他の車両の前記走行性能指標と、前記自車両の前記走行性能指標とを比較することにより、前記自車両の走行性能が前記他の車両の走行性能よりも低いか否かを判定する性能判定処理と、を実行し、
前記走行性能指標によって示される車両の走行性能に影響を与える車両の状態と、前記車両の電子機器の操作に関する変数である行動変数との関係を規定する関係規定データを記憶する記憶装置を備え、
前記実行装置は、
前記車両の状態を検出するセンサの検出値を取得する取得処理と、
前記検出値と前記関係規定データとによって定まる前記行動変数の値に基づいて前記電子機器を操作する操作処理と、
前記検出値が、前記自車両の走行性能が基準性能よりも高いことを示す値であるときには、前記検出値が、前記自車両の走行性能が前記基準性能よりも高くないことを示す値であるときよりも大きい報酬を与える報酬算出処理と、
前記検出値、前記電子機器の操作に用いられた前記行動変数の値、及び当該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、を実行するようになっており、
前記更新写像は、前記関係規定データに従って前記電子機器が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものであり、
前記実行装置は、前記報酬算出処理では、前記自車両の走行性能が前記基準性能よりも高いことを示す値であるときに与える報酬を、前記性能判定処理で前記自車両の走行性能が前記他の車両の走行性能よりも低いと判定した場合には、前記自車両の走行性能が前記他の車両の走行性能よりも低いと判定していない場合よりも大きい値とする
車両用制御装置。
他の車両との直接通信である車車間通信の機能を有する車両に適用される車両用制御装置であって、
実行装置を備え、
前記実行装置は、
自車両の走行性能に関する指標である走行性能指標を導出する指標導出処理と、
前記車車間通信によって、前記他の車両から当該他の車両の前記走行性能指標を受信する指標受信処理と、
前記他の車両の前記走行性能指標と、前記自車両の前記走行性能指標とを比較することにより、前記自車両の走行性能が前記他の車両の走行性能よりも低いか否かを判定する性能判定処理と、を実行し、
前記走行性能指標によって示される車両の走行性能に影響を与える車両の状態と、前記車両の電子機器の操作に関する変数である行動変数との関係を規定する関係規定データを記憶する記憶装置を備え、
前記実行装置は、
前記車両の状態を検出するセンサの検出値を取得する取得処理と、
前記検出値と前記関係規定データとによって定まる前記行動変数の値に基づいて前記電子機器を操作する操作処理と、
前記検出値が、前記自車両の走行性能が基準性能よりも高いことを示す値であるときには、前記検出値が、前記自車両の走行性能が前記基準性能よりも高くないことを示す値であるときよりも大きい報酬を与える報酬算出処理と、
前記検出値、前記電子機器の操作に用いられた前記行動変数の値、及び当該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、
前記性能判定処理で前記自車両の走行性能が前記他の車両の走行性能よりも低いと判定したときには、前記他の車両から前記関係規定データを受信し、前記記憶装置に記憶されている前記関係規定データを、前記他の車両から受信した前記関係規定データに置き換えるデータ置換処理と、を実行し、
前記更新写像は、前記関係規定データに従って前記電子機器が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものである
車両用制御装置。
前記実行装置は、前記データ置換処理の実行によって前記記憶装置の前記関係規定データを置き換えても前記自車両の走行性能が向上しないときには、前記自車両に異常が発生している旨を報知する異常報知処理を実行する
請求項２に記載の車両用制御装置。
前記実行装置は、
前記指標導出処理では、車両のエネルギの利用効率に関する指標を前記走行性能指標として導出し、
前記性能判定処理では、前記自車両のエネルギの利用効率が前記他の車両のエネルギの利用効率よりも低いか否かを判定する
請求項１～請求項３のうち何れか一項に記載の車両用制御装置。
前記実行装置は、
前記指標導出処理では、車両の加速性能に関する指標を前記走行性能指標として導出し、
前記性能判定処理では、前記自車両の加速性能が前記他の車両の加速性能よりも低いか否かを判定する
請求項１～請求項３のうち何れか一項に記載の車両用制御装置。
前記実行装置は、
前記自車両の積載量の推定値を取得する積載量取得処理と、
前記車車間通信によって前記他の車両の積載量の推定値を受信する積載量受信処理と、を実行し、
前記他の車両の積載量の推定値と前記自車両の積載量の推定値との差分が積載量差分判定値未満であることを条件に、前記性能判定処理を実行する
請求項１～請求項５のうち何れか一項に記載の車両用制御装置。
前記実行装置は、
前記自車両の走行距離を取得する走行距離取得処理と、
前記車車間通信によって前記他の車両の走行距離を受信する走行距離受信処理と、を実行し、
前記他の車両の走行距離と前記自車両の走行距離との差分が距離差分判定値未満であることを条件に、前記性能判定処理を実行する
請求項１～請求項６のうち何れか一項に記載の車両用制御装置。