JP2021066417A

JP2021066417A - 車両用制御装置、車両用制御システム、および車両用学習装置

Info

Publication number: JP2021066417A
Application number: JP2020055799A
Authority: JP
Inventors: 洋介橋本; Yosuke Hashimoto; 章弘片山; Akihiro Katayama; 裕太大城; Yuta Oshiro; 和紀杉江; Kazuki Sugie; 尚哉岡; Naoya Oka
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2021-04-30

Abstract

【課題】車両の状態と行動変数との関係の設定に際して、熟練者に要求される工数を削減できるようにした車両用制御装置を提供する。【解決手段】ＣＰＵ７２は、１つのエピソードが終了するまで、関係規定データＤＲおよびアクセル操作量ＰＡの時系列データに基づき、スロットル開口度指令値および点火時期の遅角量を設定し、それらに応じてスロットルバルブや点火装置を操作し、その際のトルク、トルク指令値および加速度を取得する。ＣＰＵ７２は、エピソードが終了する場合、トルクや加速度が基準を満たすか否かに応じて報酬を与えることによって関係規定データＤＲを更新する。ＣＰＵは、車両内の部品の機能回復処置がなされる場合、スロットル開口度指令値や点火時期の設定のための関係規定データＤＲを、初期データＤＲ０に切り替える。【選択図】図１

Description

本発明は、車両用制御装置、車両用制御システム、および車両用学習装置に関する。

たとえば下記特許文献１には、アクセルペダルの操作量をフィルタ処理した値に基づき、車両に搭載される内燃機関の操作部としてのスロットルバルブを操作する制御装置が記載されている。

特開２０１６−６３２７号公報

ところで、上記フィルタは、アクセルペダルの操作量に応じて車両に搭載される内燃機関のスロットルバルブの操作量を適切な操作量に設定するものである必要があることから、その適合には熟練者が多くの工数をかける必要が生じる。このように、従来は、車両の状態に応じた車両内の電子機器の操作量等の適合には、熟練者が多くの工数をかけていた。

以下、上記課題を解決するための手段およびその作用効果について記載する。
１．実行装置および記憶装置を備え、前記記憶装置には、車両の状態と前記車両内の電子機器の操作に関する変数である行動変数との関係を規定する関係規定データが記憶されており、前記実行装置は、前記車両の状態を検出するセンサの検出値を取得する取得処理と、前記取得処理によって取得された前記検出値と前記関係規定データとによって定まる前記行動変数の値に基づき前記電子機器を操作する操作処理と、前記取得処理によって取得された前記検出値に基づき、前記車両の特性が基準を満たす場合に満たさない場合よりも大きい報酬を与える報酬算出処理と、前記取得処理によって取得された前記検出値に基づく前記車両の状態、前記電子機器の操作に用いられた前記行動変数の値、および該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、前記車両内の部品のうち前記操作処理による操作によって生じる前記車両の状態に影響を及ぼす部品の機能回復処置がなされたことを検知する検知処理と、前記検知処理によって機能回復処置がなされたことが検知される場合、前記操作処理に利用する前記関係規定データを、処置後用データに切り替える切替処理と、を実行し、前記更新写像は、前記関係規定データに従って前記電子機器が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものであり、前記切替処理は、前記処置後用データとして、前記車両の走行に伴う前記更新処理が実行される前の前記関係規定データである初期データを用いる処理を含む車両用制御装置である。

上記構成では、電子機器の操作に伴う報酬を算出することによって、当該操作によってどのような報酬が得られるかを把握することができる。そして、報酬に基づき、強化学習に従った更新写像によって関係規定データを更新することにより、車両の状態と行動変数との関係を車両の走行において適切な関係に設定することができる。したがって、車両の状態と行動変数との関係を車両の走行において適切な関係に設定する際、熟練者に要求される工数を削減できる。

ところで、車両内の部品が劣化する場合等には、強化学習によって、関係規定データが劣化した部品を用いたときに適切なデータへと更新される。そのため、その後、機能回復処置がなされる場合、関係規定データは、期待収益を大きくする上で適切なデータではなくなるおそれがある。そこで上記構成では、機能回復処置がなされる場合、切替処理によって、操作処理に利用する関係規定データを初期データに切り替えることにより、機能回復処置がなされることによる期待収益の低下を抑制することが可能となる。

２．前記実行装置は、前記更新処理による更新がなされる前記関係規定データとは別に、所定の条件が成立するまでは前記更新処理による更新がなされて且つ前記所定の条件が成立した後には前記更新処理による更新を回避した前記関係規定データを前記記憶装置に記憶させた状態とする過去データ維持処理を実行し、前記切替処理は、前記処置後用データを、前記過去データ維持処理によって前記所定の条件が成立する前に限って前記更新処理による更新がなされた前記関係規定データとするか前記初期データとするかを選択する処理を含む上記１記載の車両用制御装置である。

車両の走行に伴って更新処理によって更新がなされた関係規定データであって且つ、機能回復処理が必要となる程度に部品が劣化する以前に更新がなされなくなったデータは、車両の走行が開始される前の初期データと比較して、機能回復処理後において車両の状態に応じたより適切な行動変数の値を指定する可能性が高い。そこで、上記構成では、過去データ維持処理によって所定の条件が成立するまでに限って更新された関係規定データと初期データとのいずれかを選択して処置後用データとする。これにより、処置後用データを一律車両の走行が開始される前の初期データとする場合と比較して、切替処理後の関係規定データに基づき機能回復処置後の車両の状態に応じたより適切な行動変数の値を設定することが可能となる。

３．前記実行装置は、前記検知処理によって前記機能回復処置がなされたと検知される場合、前記処置後用データを要求する信号を送信する処置後用データ要求処理と、前記処置後用データ要求処理の結果、送信された前記処置後用データを受信する処置後用データ受信処理と、を実行し、前記切替処理は、前記操作処理に利用する前記関係規定データを、受信した前記処置後用データに切り替える処理を含む上記１または２記載の車両用制御装置である。

上記構成では、処置後用データ要求処理および処置後用データ受信処理を実行することにより、制御装置において処置後用データを保持していない場合であっても、処置後用データを入手することができる。

４．上記１または２記載の前記実行装置および前記記憶装置を備え、前記実行装置は、前記車両に搭載される第１実行装置と、車載装置とは別の第２実行装置と、を含み、前記第２実行装置は、前記検知処理によって機能回復処置がなされたことが検知される場合に前記処置後用データを送信する処置後用データ送信処理を少なくとも実行し、前記第１実行装置は、前記取得処理、前記操作処理、および前記処置後用データ送信処理によって送信されたデータを受信する処置後用データ受信処理を少なくとも実行する車両用制御システムである。

上記構成では、車載装置とは別の第２実行装置が処置後用データ送信処理を実行することにより、第１実行装置において処置後用データを保持していない場合であっても、処置後用データを入手することができる。なお、第２実行装置が車載装置とは別の装置であることは、第２実行装置が車載装置ではないことを意味する。

５．前記第１実行装置は、前記検知処理、および前記検知処理によって前記機能回復処置がなされたと検知される場合に前記処置後用データを要求する信号を送信する処置後用データ要求処理を実行する上記４記載の車両用制御システムである。

上記構成では、処置後用データ要求処理および処置後用データ受信処理を実行することにより、第１実行装置において処置後用データを保持していない場合であっても、処置後用データを入手することができる。

６．前記更新処理は、前記第１実行装置によって実行される上記４または５記載の車両用制御システムである。
７．上記４〜６のいずれか１つに記載の前記第１実行装置を備える車両用制御装置である。

８．上記４〜６のいずれか１つに記載の前記第２実行装置を備える車両用学習装置である。

第１の実施形態にかかる制御装置およびその駆動系を示す図。同実施形態にかかる制御装置が実行する処理の手順を示す流れ図。同実施形態にかかる制御装置が実行する処理の一部の詳細な手順を示す流れ図。同実施形態にかかる制御装置が実行する処理の手順を示す流れ図。第２の実施形態にかかる車両用制御システムの構成を示す図。（ａ）および（ｂ）は、車両用制御システムが実行する処理の手順を示す流れ図。

＜第１の実施形態＞
以下、車両用制御装置の第１の実施形態について、図面を参照しつつ説明する。
図１に、本実施形態にかかる車両ＶＣ１の駆動系および制御装置の構成を示す。

図１に示すように、内燃機関１０の吸気通路１２には、上流側から順にスロットルバルブ１４および燃料噴射弁１６が設けられており、吸気通路１２に吸入された空気や燃料噴射弁１６から噴射された燃料は、吸気バルブ１８の開弁に伴って、シリンダ２０およびピストン２２によって区画される燃焼室２４に流入する。燃焼室２４内において、燃料と空気との混合気は、点火装置２６の火花放電に伴って燃焼に供され、燃焼によって生じたエネルギは、ピストン２２を介してクランク軸２８の回転エネルギに変換される。燃焼に供された混合気は、排気バルブ３０の開弁に伴って、排気として排気通路３２に排出される。排気通路３２には、排気を浄化する後処理装置としての触媒３４が設けられている。

クランク軸２８には、ロックアップクラッチ４２を備えたトルクコンバータ４０を介して、変速装置５０の入力軸５２が機械的に連結可能とされている。変速装置５０は、入力軸５２の回転速度と出力軸５４の回転速度との比である変速比を可変とする装置である。出力軸５４には、駆動輪６０が機械的に連結されている。

制御装置７０は、内燃機関１０を制御対象とし、その制御量であるトルクや排気成分比率等を制御すべく、スロットルバルブ１４、燃料噴射弁１６および点火装置２６等の内燃機関１０の操作部を操作する。また、制御装置７０は、トルクコンバータ４０を制御対象とし、ロックアップクラッチ４２の係合状態を制御すべくロックアップクラッチ４２を操作する。また、制御装置７０は、変速装置５０を制御対象とし、その制御量としての変速比を制御すべく変速装置５０を操作する。なお、図１には、スロットルバルブ１４、燃料噴射弁１６、点火装置２６、ロックアップクラッチ４２、および変速装置５０のそれぞれの操作信号ＭＳ１〜ＭＳ５を記載している。

制御装置７０は、制御量の制御のために、エアフローメータ８０によって検出される吸入空気量Ｇａや、スロットルセンサ８２によって検出されるスロットルバルブ１４の開口度（スロットル開口度ＴＡ）、クランク角センサ８４の出力信号Ｓｃｒを参照する。また、制御装置７０は、アクセルセンサ８８によって検出されるアクセルペダル８６の踏み込み量（アクセル操作量ＰＡ）や、加速度センサ９０によって検出される車両ＶＣ１の前後方向の加速度Ｇｘを参照する。また、制御装置７０は、全地球測位システム（ＧＰＳ９２）による位置データＰｇｐｓを参照する。

制御装置７０は、ＣＰＵ７２、ＲＯＭ７４、電気的に書き換え可能な不揮発性メモリ（記憶装置７６）、および周辺回路７８を備え、それらがローカルネットワーク７９を介して通信可能とされている。ここで、周辺回路７８は、内部の動作を規定するクロック信号を生成する回路や、電源回路、リセット回路等を含む。

ＲＯＭ７４には、制御プログラム７４ａおよび学習プログラム７４ｂが記憶されている。一方、記憶装置７６には、アクセル操作量ＰＡと、スロットル開口度ＴＡの指令値（スロットル開口度指令値ＴＡ＊）および点火装置２６の遅角量ａｏｐとの関係を規定する関係規定データＤＲと、その初期データＤＲ０とが記憶されている。ここで、遅角量ａｏｐは、予め定められた基準点火時期に対する遅角量であり、基準点火時期は、ＭＢＴ点火時期とノック限界点とのうちの遅角側の時期である。ＭＢＴ点火時期は、最大トルクの得られる点火時期（最大トルク点火時期）である。またノック限界点は、ノック限界の高い高オクタン価燃料の使用時に、想定される最良の条件下で、ノッキングを許容できるレベル以内に収めることのできる点火時期の進角限界値である。また、記憶装置７６には、トルク出力写像データＤＴが記憶されている。トルク出力写像データＤＴによって規定されるトルク出力写像は、クランク軸２８の回転速度ＮＥ、充填効率η、および点火時期を入力とし、トルクＴｒｑを出力する写像である。

図２に、本実施形態にかかる制御装置７０が実行する処理の手順を示す。図２に示す処理は、ＲＯＭ７４に記憶された制御プログラム７４ａおよび学習プログラム７４ｂをＣＰＵ７２がたとえば所定周期で繰り返し実行することにより実現される。なお、以下では、先頭に「Ｓ」が付与された数字によって各処理のステップ番号を示す。

図２に示す一連の処理において、ＣＰＵ７２は、まず、状態ｓとして、アクセル操作量ＰＡの６個のサンプリング値「ＰＡ（１），ＰＡ（２），…ＰＡ（６）」からなる時系列データを取得する（Ｓ１０）。ここで、時系列データを構成する各サンプリング値は、互いに異なるタイミングにおいてサンプリングされたものである。本実施形態では、一定のサンプリング周期でサンプリングされる場合の、互いに時系列的に隣り合う６個のサンプリング値によって時系列データを構成する。

次にＣＰＵ７２は、関係規定データＤＲが定める方策πに従い、Ｓ１０の処理によって取得した状態ｓに応じたスロットル開口度指令値ＴＡ＊および遅角量ａｏｐからなる行動ａを設定する（Ｓ１２）。

本実施形態において、関係規定データＤＲは、行動価値関数Ｑおよび方策πを定めるデータである。本実施形態において、行動価値関数Ｑは、状態ｓおよび行動ａの８次元の独立変数に応じた期待収益の値を示すテーブル型式の関数である。また、方策πは、状態ｓが与えられたときに、独立変数が与えられた状態ｓとなる行動価値関数Ｑのうち最大となる行動ａ（グリーディ行動）を優先的に選択しつつも、所定の確率εで、それ以外の行動ａを選択する規則を定める。

詳しくは、本実施形態にかかる行動価値関数Ｑの独立変数がとりうる値の数は、状態ｓおよび行動ａのとりうる値の全組み合わせのうちの一部が、人の知見等によって削減されたものである。すなわち、たとえばアクセル操作量ＰＡの時系列データのうち隣接する２つのサンプリング値の１つがアクセル操作量ＰＡの最小値となりもう１つが最大値となるようなことは、人によるアクセルペダル８６の操作からは生じえないとして、行動価値関数Ｑが定義されていない。本実施形態では、人の知見等に基づく次元削減によって、行動価値関数Ｑを定義する状態ｓの取りうる値を、１０の４乗個以下、より望ましくは１０の３乗個以下に制限する。

次にＣＰＵ７２は、設定されたスロットル開口度指令値ＴＡ＊および遅角量ａｏｐに基づき、スロットルバルブ１４に操作信号ＭＳ１を出力してスロットル開口度ＴＡを操作するとともに、点火装置２６に操作信号ＭＳ３を出力して点火時期を操作する（Ｓ１４）。ここで、本実施形態では、スロットル開口度ＴＡをスロットル開口度指令値ＴＡ＊にフィードバック制御することを例示することから、スロットル開口度指令値ＴＡ＊が同一の値であっても、操作信号ＭＳ１が互いに異なる信号となりうるものである。また、たとえば周知のノッキングコントロール（ＫＣＳ）等がなされる場合、点火時期は、基準点火時期を遅角量ａｏｐにて遅角させた値がＫＣＳにてフィードバック補正された値とされる。ここで、基準点火時期は、ＣＰＵ７２により、クランク軸２８の回転速度ＮＥおよび充填効率ηに応じて可変設定される。なお、回転速度ＮＥは、クランク角センサ８４の出力信号Ｓｃｒに基づきＣＰＵ７２によって算出される。また、充填効率ηは、回転速度ＮＥおよび吸入空気量Ｇａに基づきＣＰＵ７２によって算出される。

次にＣＰＵ７２は、内燃機関１０のトルクＴｒｑ、内燃機関１０に対するトルク指令値Ｔｒｑ＊、および加速度Ｇｘを取得する（Ｓ１６）。ここで、ＣＰＵ１１２は、トルクＴｒｑを、回転速度ＮＥ、充填効率ηおよび点火時期をトルク出力写像に入力することによって算出する。また、ＣＰＵ７２は、トルク指令値Ｔｒｑ＊を、アクセル操作量ＰＡに応じて設定する。

次にＣＰＵ７２は、過渡フラグＦが「１」であるか否かを判定する（Ｓ１８）。過渡フラグＦは、「１」である場合に過渡運転時であることを示し、「０」である場合に過渡運転時ではないことを示す。ＣＰＵ７２は、過渡フラグＦが「０」であると判定する場合（Ｓ１８：ＮＯ）、アクセル操作量ＰＡの単位時間当たりの変化量ΔＰＡの絶対値が所定量ΔＰＡｔｈ以上であるか否かを判定する（Ｓ２０）。ここで、変化量ΔＰＡは、たとえば、Ｓ２０の処理の実行タイミングにおける最新のアクセル操作量ＰＡと、同タイミングに対して単位時間だけ前におけるアクセル操作量ＰＡとの差とすればよい。

ＣＰＵ７２は、所定量ΔＰＡｔｈ以上であると判定する場合（Ｓ２０：ＹＥＳ）、過渡フラグＦに「１」を代入する（Ｓ２２）。
これに対し、ＣＰＵ７２は、過渡フラグＦが「１」であると判定する場合（Ｓ１８：ＹＥＳ）、Ｓ２２の処理の実行タイミングから所定期間が経過したか否かを判定する（Ｓ２４）。ここで、所定期間は、アクセル操作量ＰＡの単位時間当たりの変化量ΔＰＡの絶対値が所定量ΔＰＡｔｈよりも小さい規定量以下となる状態が所定時間継続するまでの期間とする。ＣＰＵ７２は、所定期間が経過したと判定する場合（Ｓ２４：ＹＥＳ）、過渡フラグＦに「０」を代入する（Ｓ２６）。

ＣＰＵ７２は、Ｓ２２，Ｓ２６の処理が完了する場合、１つのエピソードが終了したとして、強化学習によって行動価値関数Ｑを更新する（Ｓ２８）。
図３に、Ｓ２８の処理の詳細を示す。

図３に示す一連の処理において、ＣＰＵ７２は、直近に終了されたエピソード中のトルク指令値Ｔｒｑ＊、トルクＴｒｑおよび加速度Ｇｘの３つのサンプリング値の組からなる時系列データと、状態ｓおよび行動ａの時系列データと、を取得する（Ｓ３０）。ここで、直近のエピソードは、Ｓ２２の処理に続いてＳ３０の処理がなされる場合には、過渡フラグＦが継続して「０」となっていた期間であり、Ｓ２６の処理に続いてＳ３０の処理がなされる場合には、過渡フラグＦが継続して「１」となっていた期間である。

図３には、カッコの中の数字が異なるものが、異なるサンプリングタイミングにおける変数の値であることを示す。たとえば、トルク指令値Ｔｒｑ＊（１）とトルク指令値Ｔｒｑ＊（２）とは、サンプリングタイミングが互いに異なるものである。また、直近のエピソードに属する行動ａの時系列データを、行動集合Ａｊとし、同エピソードに属する状態ｓの時系列データを、状態集合Ｓｊと定義する。

次にＣＰＵ７２は、直近のエピソードに属する任意のトルクＴｒｑとトルク指令値Ｔｒｑ＊との差の絶対値が規定量ΔＴｒｑ以下である旨の条件（ア）と、加速度Ｇｘが下限値ＧｘＬ以上であって上限値ＧｘＨ以下である旨の条件（イ）との論理積が真であるか否かを判定する（Ｓ３２）。

ここで、ＣＰＵ７２は、規定量ΔＴｒｑを、エピソードの開始時におけるアクセル操作量ＰＡの単位時間当たりの変化量ΔＰＡによって可変設定する。すなわち、ＣＰＵ７２は、変化量ΔＰＡの絶対値が大きい場合には過渡時に関するエピソードであるとして、定常時である場合と比較して、規定量ΔＴｒｑを大きい値に設定する。

また、ＣＰＵ７２は、下限値ＧｘＬを、エピソードの開始時におけるアクセル操作量ＰＡの変化量ΔＰＡによって可変設定する。すなわち、ＣＰＵ７２は、過渡時に関するエピソードであって且つ変化量ΔＰＡが正である場合には、定常時に関するエピソードの場合と比較して、下限値ＧｘＬを大きい値に設定する。また、ＣＰＵ７２は、過渡時に関するエピソードであって且つ変化量ΔＰＡが負である場合には、定常時に関するエピソードの場合と比較して、下限値ＧｘＬを小さい値に設定する。

また、ＣＰＵ７２は、上限値ＧｘＨを、エピソードの開始時におけるアクセル操作量ＰＡの単位時間当たりの変化量ΔＰＡによって可変設定する。すなわち、ＣＰＵ７２は、過渡時に関するエピソードであって且つ変化量ΔＰＡが正である場合には、定常時に関するエピソードの場合と比較して、上限値ＧｘＨを大きい値に設定する。また、ＣＰＵ７２は、過渡時に関するエピソードであって且つ変化量ΔＰＡが負である場合には、定常時に関するエピソードの場合と比較して、上限値ＧｘＨを小さい値に設定する。

ＣＰＵ７２は、論理積が真であると判定する場合（Ｓ３２：ＹＥＳ）、報酬ｒに「１０」を代入する一方（Ｓ３４）、偽であると判定する場合（Ｓ３２：ＮＯ）、報酬ｒに「−１０」を代入する（Ｓ３６）。ＣＰＵ７２は、Ｓ３４，Ｓ３６の処理が完了する場合、図１に示した記憶装置７６に記憶されている関係規定データＤＲを更新する。本実施形態では、εソフト方策オン型モンテカルロ法を用いる。

すなわち、ＣＰＵ７２は、上記Ｓ３０の処理によって読み出した各状態と対応する行動との組によって定まる収益Ｒ（Ｓｊ，Ａｊ）に、それぞれ、報酬ｒを加算する（Ｓ３８）。ここで、「Ｒ（Ｓｊ，Ａｊ）」は、状態集合Ｓｊの要素の１つを状態とし行動集合Ａｊの要素の１つを行動とする収益Ｒを総括した記載である。次に、上記Ｓ３０の処理によって読み出した各状態と対応する行動との組によって定まる収益Ｒ（Ｓｊ，Ａｊ）のそれぞれについて、平均化して対応する行動価値関数Ｑ（Ｓｊ，Ａｊ）に代入する（Ｓ４０）。ここで、平均化は、Ｓ３８の処理がなされた回数に所定数を加えた数によって、Ｓ３８の処理によって算出された収益Ｒを除算する処理とすればよい。なお、収益Ｒの初期値は、対応する行動価値関数Ｑの初期値とすればよい。

次にＣＰＵ７２は、上記Ｓ３０の処理によって読み出した状態について、それぞれ、対応する行動価値関数Ｑ（Ｓｊ，Ａ）のうち、最大値となるときのスロットル開口度指令値ＴＡ＊および遅角量ａｏｐの組である行動を、行動Ａｊ＊に代入する（Ｓ４２）。ここで、「Ａ」は、とりうる任意の行動を示す。なお、行動Ａｊ＊は、上記Ｓ３０の処理によって読み出した状態の種類に応じて各別の値となるものであるが、ここでは、表記を簡素化して、同一の記号にて記載している。

次に、ＣＰＵ７２は、上記Ｓ３０の処理によって読み出した状態のそれぞれについて、対応する方策π（Ａｊ｜Ｓｊ）を更新する（Ｓ４４）。すなわち、行動の総数を、「｜Ａ｜」とすると、Ｓ４２によって選択された行動Ａｊ＊の選択確率を、「１−ε＋ε／｜Ａ｜」とする。また、行動Ａｊ＊以外の「｜Ａ｜−１」個の行動の選択確率を、それぞれ「ε／｜Ａ｜」とする。Ｓ４４の処理は、Ｓ４０の処理によって更新された行動価値関数Ｑに基づく処理であることから、これにより、状態ｓと行動ａとの関係を規定する関係規定データＤＲが、収益Ｒを増加させるように更新されることとなる。

なお、ＣＰＵ７２は、Ｓ４４の処理が完了する場合、図３に示す一連の処理を一旦終了する。
図２に戻り、ＣＰＵ７２は、Ｓ２８の処理が完了する場合や、Ｓ２０，Ｓ２４の処理において否定判定する場合には、図２に示す一連の処理を一旦終了する。なお、Ｓ１０〜Ｓ２６の処理は、ＣＰＵ７２が制御プログラム７４ａを実行することにより実現され、Ｓ２８の処理は、ＣＰＵ７２が学習プログラム７４ｂを実行することにより実現される。また、車両ＶＣ１の出荷時における関係規定データＤＲは、初期データＤＲ０と同一である。初期データＤＲ０は、テストベンチで車両の走行を模擬するなどしつつ図２に示した処理と同様の処理を実行することによってあらかじめ学習がなされたデータとする。

図４に、本実施形態にかかる制御装置７０が実行する処理の手順を示す。図４に示す処理は、ＲＯＭ７４に記憶された学習プログラム７４ｂを、ＣＰＵ７２がたとえば所定周期で繰り返し実行することにより実現される。

図４に示す一連の処理において、ＣＰＵ７２は、まず車両ＶＣ１の走行距離ＲＬが所定距離となったか否かを判定する（Ｓ５０）。ここで所定距離は、たとえば、１万ｋｍ、２万ｋｍ、３万ｋｍ、…等、所定量の倍数によってあらわされる複数の距離とする。ＣＰＵ７２は、所定距離であると判定する場合（Ｓ５０：ＹＥＳ）、そのときの関係規定データＤＲを、更新済みデータＤＲ１として記憶装置７６に記憶する（Ｓ５２）。なお、上記所定量を「１万ｋｍ」とする場合、走行距離ＲＬが２万ｋｍとなるなら、更新済みデータＤＲ１として、２つの異なるデータが記憶装置７６に記憶される。すなわち、走行距離ＲＬが所定距離であると判定されるたびに、そのときの関係規定データＤＲが、新たに更新済みデータＤＲ１として記憶装置７６に記憶され、更新済みデータＤＲ１が増えていく。

ＣＰＵ７２は、Ｓ５２の処理が完了する場合や、Ｓ５０の処理において否定判定する場合、機能回復処置がなされたか否かを判定する（Ｓ５４）。本実施形態では、車両ＶＣ１のメンテナンスに伴う車両ＶＣ１に搭載された部品の機能回復処置がされる場合、スキャンツールから制御装置７０に、機能回復処置がなされた旨の信号が入力されることを想定している。そのため、ＣＰＵ７２は、機能回復処置がなされた旨の信号が入力される場合に、機能回復処置がなされたと判定する。

ＣＰＵ７２は、機能回復処置がなされたと判定する場合（Ｓ５４：ＹＥＳ）、現在の走行距離ＲＬよりも所定量ΔＬ以上短い走行距離であった時点における更新済みデータＤＲ１が存在するか否かを判定する（Ｓ５６）。そしてＣＰＵ７２は、更新済みデータＤＲ１が存在すると判定する場合（Ｓ５６：ＹＥＳ）、処置後用データＤＲｐに、更新済みデータＤＲ１を代入する（Ｓ５８）。なお、記憶装置７６に更新済みデータＤＲ１としてＳ５６の処理によって肯定判定される対象となる複数のデータが記憶されている場合、ＣＰＵ７２は、そのうちの最も走行距離ＲＬが長いときのデータを処置後用データＤＲｐに代入する。これに対し、ＣＰＵ７２は、更新済みデータＤＲ１が存在しないと判定する場合（Ｓ５６：ＮＯ）、処置後用データＤＲｐに、初期データＤＲ０を代入する（Ｓ６０）。

ＣＰＵ７２は、Ｓ５８，Ｓ６０の処理が完了する場合、Ｓ１２の処理に利用する関係規定データＤＲを、処置後用データＤＲｐに書き換える（Ｓ６２）。
なお、ＣＰＵ７２は、Ｓ６２の処理が完了する場合や、Ｓ５４の処理において否定判定する場合には、図４に示す一連の処理を一旦終了する。

ここで、本実施形態の作用および効果について説明する。
ＣＰＵ７２は、ユーザによるアクセルペダル８６の操作に伴って、アクセル操作量ＰＡの時系列データを取得し、方策πに従って、スロットル開口度指令値ＴＡ＊および遅角量ａｏｐからなる行動ａを設定する。ここでＣＰＵ７２は、基本的には、関係規定データＤＲに規定されている行動価値関数Ｑに基づき期待収益を最大とする行動ａを選択する。ただし、ＣＰＵ７２は、所定の確率εで、期待収益を最大化する行動ａ以外の行動を選択することによって、期待収益を最大化する行動ａの探索を行う。これにより、ユーザによる車両ＶＣ１の運転に伴って、関係規定データＤＲを強化学習によって更新できる。したがって、アクセル操作量ＰＡに応じたスロットル開口度指令値ＴＡ＊および遅角量ａｏｐを、熟練者による工数を過度に大きくすることなく車両ＶＣ１の走行において適切な値に設定することができる。

このようにして車両ＶＣ１の出荷時に初期データＤＲ０と同一だった関係規定データＤＲは、車両ＶＣ１の走行に伴って更新されていく。ここで、たとえばスロットル開口度ＴＡが同一であったとしても、スロットルバルブ１４や吸気通路１２に堆積物が堆積する場合には、吸気通路１２の流路断面積が小さくなることから、吸入空気量Ｇａが小さくなる。そのため、関係規定データＤＲによって規定される、アクセル操作量ＰＡの時系列データに応じて期待収益を最大化するスロットル開口度指令値ＴＡ＊は、スロットルバルブ１４に堆積物が堆積することに起因した吸気通路１２の流路断面積の変化を補償するように更新される可能性がある。このように、車両ＶＣ１の部品の経年劣化を補償するように関係規定データＤＲが学習される場合、その後、メンテナンスに伴って部品交換や清掃がなされることにより、車両ＶＣ１の部品の機能回復処置がなされると、関係規定データＤＲが期待収益を大きくする行動を定めるうえで適切なデータではなくなる懸念がある。

そこで、ＣＰＵ７２は、機能回復処置がなされた判定することを条件に、初期データＤＲ０を処置後用データＤＲｐとして、これによって関係規定データＤＲを書き換えた。初期データＤＲ０は、部品の劣化を補償するように更新がなされていないデータである。そのため、初期データＤＲ０に書き換えることにより、機能回復処置がなされた後にも機能回復処置前の関係規定データＤＲをそのまま使用し続ける場合と比較すると、機能回復処置後におけるスロットルバルブ１４や点火装置２６の操作にとってより適切なデータを用いてそれらを操作することができる。

以上説明した本実施形態によれば、さらに以下に記載する作用効果が得られる。
（１）ＣＰＵ７２は、走行距離ＲＬが所定量だけ増加する都度、その時の関係規定データＤＲを更新済みデータＤＲ１として記憶した。そして、ＣＰＵ７２は、機能回復処置がなされたと判定する場合、現在の走行距離ＲＬよりも所定量ΔＬ以上短い走行距離だったときの更新済みデータＤＲ１が存在する場合、これを処置後用データＤＲｐとし、スロットル開口度指令値ＴＡ＊および遅角量ａｏｐの設定に用いる関係規定データＤＲを書き換えた。ここで、更新済みデータＤＲ１は、車両ＶＣ１の出荷時の関係規定データＤＲである初期データＤＲ０に対して、車両ＶＣ１の実際の走行に伴って更新されたデータである。しかも、機能回復処置がなされたときよりも所定距離ΔＬ以上短い走行距離ＲＬにおける関係規定データＤＲであることから、機能回復処置がなされる時点における部品の劣化等の影響が小さいデータであると考えられる。そのため、更新済みデータＤＲ１に更新することによって、機能回復処置後の車両ＶＣ１にとって適切な関係規定データＤＲとすることができる。

（２）行動価値関数Ｑの独立変数にアクセル操作量ＰＡの時系列データを含めた。これにより、アクセル操作量ＰＡに関して単一のサンプリング値のみを独立変数とする場合と比較して、アクセル操作量ＰＡの様々な変化に対して行動ａの値をきめ細かく調整できる。

（３）行動価値関数Ｑの独立変数に、スロットル開口度指令値ＴＡ＊自体を含めた。これにより、たとえば、スロットル開口度指令値ＴＡ＊の挙動をモデル化したモデル式のパラメータ等をスロットル開口度に関する独立変数とする場合と比較して、強化学習による探索の自由度を高めることが容易である。

＜第２の実施形態＞
以下、第２の実施形態について、第１の実施形態との相違点を中心に図面を参照しつつ説明する。

図５に、本実施形態において、強化学習を実行する制御システムの構成を示す。なお、図５において、図１に示した部材に対応する部材については、便宜上、同一の符号を付している。

図５に示す車両ＶＣ１内のＲＯＭ７４には、制御プログラム７４ａに加えて、学習用メインプログラム７４ｃが記憶されている。また、車両ＶＣ１内の記憶装置７６は、トルク出力写像データＤＴや関係規定データＤＲを記憶しているものの、初期データＤＲ０については記憶していない。また、制御装置７０は、通信機７７を備えている。通信機７７は車両ＶＣ１の外部のネットワーク１００を介してデータ解析センター１１０と通信するための機器である。

データ解析センター１１０は、複数の車両ＶＣ１，ＶＣ２，…から送信されるデータを解析する。データ解析センター１１０は、ＣＰＵ１１２、ＲＯＭ１１４、および電気的に書き換え可能な不揮発性メモリ（記憶装置１１６）、周辺回路１１８および通信機１１７を備えており、それらがローカルネットワーク１１９によって通信可能とされるものである。ＲＯＭ１１４には、学習用サブプログラム１１４ａが記憶されている。記憶装置１１６には、初期データＤＲ０が記憶されている。

図６に、本実施形態にかかる機能回復処置に対処する処理手順を示す。図６（ａ）に示す処理は、図５に示すＲＯＭ７４に記憶された学習用メインプログラム７４ｃをＣＰＵ７２が実行することにより実現される。また、図６（ｂ）に示す処理は、ＲＯＭ１１４に記憶されている学習用サブプログラム１１４ａをＣＰＵ１１２が実行することにより実現される。なお、図６において図４に示した処理に対応する処理については、便宜上同一のステップ番号を付している。以下では、時系列に沿って、図６に示す処理を説明する。

図６（ａ）に示す一連の処理において、ＣＰＵ７２は、まず、通信機７７を操作して、車両ＶＣ１の識別情報ＩＤと、走行距離ＲＬと、位置データＰｇｐｓとを送信する（Ｓ７０）。

これに対し、図６（ｂ）に示すように、ＣＰＵ１１２は、識別情報ＩＤ、走行距離ＲＬおよび位置データＰｇｐｓを受信する（Ｓ８０）。そして、ＣＰＵ１１２は、記憶装置１１６に記憶された識別情報ＩＤに紐づけられた走行距離ＲＬおよび位置データＰｇｐｓを、Ｓ８０の処理によって受信した値に更新する（Ｓ８２）。

一方、図６（ａ）に示すように、ＣＰＵ７２は、Ｓ５４の処理を実行し、肯定判定する場合、通信機７７を操作することによって、Ｓ１２の処理に用いる関係規定データＤＲとして適切な処置後用データＤＲｐを要求する信号を送信する（Ｓ７２）。

これに対し、図６（ｂ）に示すように、ＣＰＵ１１２は、処置後用データＤＲｐの要求があるか否かを判定する（Ｓ８４）。そしてＣＰＵ１１２は、処置後用データＤＲｐの要求があると判定する場合（Ｓ８４：ＹＥＳ）、要求する信号を送信した車両ＶＣ１と位置的に近い車両であって走行距離が短い車両を検索する（Ｓ８６）。ここで、位置的に近い車両であるとの条件は、Ｓ８２の処理によって記憶されている各車両の位置データＰｇｐｓに基づき、要求する信号を送信した車両ＶＣ１との距離が所定距離以下の車両とする。また、要求する信号を送信した車両ＶＣ１よりも走行距離が短い車両としては、同車両ＶＣ１の走行距離ＲＬよりも所定量ΔＬ以上走行距離が短く、且つ同車両ＶＣ１の走行距離ＲＬとの差が規定量ΔＨ以下である車両とする。

ここで、車両ＶＣ１との距離が所定距離以下の車両を検索するのは、車両ＶＣ１と距離があまりに大きいところに位置する車両の場合の関係規定データＤＲは、環境の相違等に起因して、車両ＶＣ１にとって期待収益を大きくする上で適切なデータとならないことを懸念したためである。また、走行距離ＲＬが、車両ＶＣ１の走行距離ＲＬよりも所定量ΔＬ以上短いものの、規定量ΔＨ以上は短くない車両としたのは、車両ＶＣ１の部品劣化の前の状態に近似した車両を特定するための設定である。

ＣＰＵ１１２は、該当する車両が存在すると判定する場合（Ｓ８８：ＹＥＳ）、通信機１１７を操作して該当する車両に対して関係規定データＤＲの送信を促し、これを他車両規定データＤＲａとして受信する（Ｓ９０）。次に、ＣＰＵ７２は、処置後用データＤＲｐに他車両規定データＤＲａを代入する（Ｓ９２）。これに対し、ＣＰＵ７２は、該当する車両が存在しないと判定する場合（Ｓ８８：ＮＯ）、処置後用データＤＲｐに初期データＤＲ０を代入する（Ｓ９４）。ＣＰＵ１１２は、Ｓ９２，Ｓ９４の処理が完了する場合、通信機１１７を操作して、要求を出した車両ＶＣ１に処置後用データＤＲｐを送信する（Ｓ９６）。なお、ＣＰＵ１１２は、Ｓ９６の処理が完了する場合や、Ｓ８４の処理において否定判定する場合には、図６（ｂ）に示す一連の処理を一旦終了する。

これに対し図６（ａ）に示すように、ＣＰＵ７２は、送信された処置後用データＤＲｐを受信し（Ｓ７４）、Ｓ６２の処理を実行する。
なお、ＣＰＵ７２は、Ｓ６２の処理が完了する場合や、Ｓ５４の処理において否定判定する場合には、図６（ａ）に示す一連の処理を一旦終了する。

＜対応関係＞
上記実施形態における事項と、上記「課題を解決するための手段」の欄に記載した事項との対応関係は、次の通りである。以下では、「課題を解決するための手段」の欄に記載した解決手段の番号毎に、対応関係を示している。

［１］実行装置は、ＣＰＵ７２およびＲＯＭ７４に対応し、記憶装置は、記憶装置７６に対応する。取得処理は、Ｓ１０，Ｓ１６の処理に対応し、操作処理は、Ｓ１４の処理に対応し、報酬算出処理は、Ｓ３２〜Ｓ３６の処理に対応し、更新処理は、Ｓ３８〜Ｓ４４の処理に対応する。検知処理は、Ｓ５４の処理に対応し、切替処理は、Ｓ６２の処理に対応する。更新写像は、学習プログラム７４ｂのうちＳ３８〜Ｓ４４の処理を実行する指令によって規定された写像に対応する。［２］過去データ維持処理は、Ｓ５２の処理に対応する。［３，５］処置後用データ要求処理は、Ｓ７２の処理に対応し、処置後用データ受信処理は、Ｓ７４の処理に対応する。［４，６〜８］第１実行装置は、ＣＰＵ７２およびＲＯＭ７４に対応し、第２実行装置は、ＣＰＵ１１２およびＲＯＭ１１４に対応する。処置後用データ送信処理は、Ｓ９６の処理に対応し、処置後用データ受信処理は、Ｓ７４の処理に対応する。

＜その他の実施形態＞
なお、本実施形態は、以下のように変更して実施することができる。本実施形態および以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。

・「検知処理について」
上記実施形態では、制御装置７０にスキャンツールが接続された状態で、スキャンツールから制御装置７０に、機能回復処置がなされた旨の信号が入力されることによって、制御装置７０でその旨を検知することとしたが、検知処理としては、これに限らない。たとえば、修理工場等で機能回復処置がなされた場合、その旨をネットワーク１００を介してデータ解析センター１１０に通知してもよい。その場合であっても、データ解析センター１１０において、図６（ｂ）のＳ８０，８２，Ｓ８６〜Ｓ９６の処理に準じた処理を実行することによって、制御装置７０に処置後用データＤＲｐを送信できる。

もっとも、検知処理としては、制御装置７０とデータ解析センター１１０とのいずれかが実行するものにも限らない。たとえば、「車両用制御システムについて」の欄に記載したように、携帯端末を備えて車両用制御システムを構成する場合、携帯端末が検知処理を実行してもよい。ここで、制御装置７０、携帯端末およびデータ解析センター１１０によって車両用制御システムを構成する場合、携帯端末が検知処理を実行した後、処置後用データＤＲｐを要求する信号をデータ解析センター１１０に送信すればよい。

さらに、検知処理としては、修理工場等による信号を直接検知する処理に限らない。たとえば、機能回復処置がなされた旨の信号を携帯端末に送信し、携帯端末から制御装置７０にその旨の信号がさらに送信される場合、制御装置７０が携帯端末からの信号を受信する処理を、検知処理としてもよい。

・「過去データ維持処理について」
上記実施形態では、走行距離ＲＬが所定距離増加するごとに、その時の関係規定データＤＲを更新済みデータＤＲ１として記憶したが、これに限らない。たとえば、スロットル開口度ＴＡの全開状態を１００％した場合の「１％」あたりの吸入空気量Ｇａの平均値によって、スロットルバルブ１４周りの堆積物の堆積量を定量化し、平均値が規定値だけ変化した時点で、その時の関係規定データＤＲを更新済みデータＤＲ１としてもよい。ここで、規定値は、吸入空気量Ｇａへの影響が無視できる上限値に設定すればよい。

・「処置用データ送信処理について」
制御装置７０が切替処理を実行するうえで必要なデータとしては、処置後用データＤＲｐのみに限らない。たとえば、「検知処理について」の欄に記載したように、機能回復処置がなされた旨の信号が修理工場からネットワーク１００を介してデータ解析センター１１０に送信される場合、データ解析センター１１０から制御装置７０にその旨を示すデータおよび処置後用データＤＲｐを送信してもよい。

Ｓ８６〜Ｓ９２の処理を削除し、データ解析センター１１０から制御装置７０に送信する処置後用データＤＲｐを常時初期データＤＲ０としてもよい。
またたとえば、図２のＳ２８の処理と図４のＳ５０，Ｓ５２，Ｓ５６〜Ｓ６２の処理に準じた処理とをデータ解析センター１１０によって実行することとし、Ｓ６２の処理によって生成された処置後用データＤＲｐを制御装置７０に送信してもよい。

・「初期データについて」
初期データＤＲ０としては、テストベンチ等で強化学習がなされたデータに限らない。たとえば出荷される車両とは別の車両である試験走行用の車両の走行時に強化学習がなされたデータであってもよい。もっとも、強化学習によって生成されたデータに限らず、たとえばすでに従来手法で適合された車両における制御ロジックに基づき生成されたデータであってもよい。その場合であっても、車両の出荷後に関係規定データＤＲを強化学習によって更新することによって、初期データＤＲ０よりも期待収益を増大させることができるデータを、熟練者の工数を増加させることなく生成することが可能となる。

・「行動変数について」
上記実施形態では、行動変数としてのスロットルバルブの開口度に関する変数として、スロットル開口度指令値ＴＡ＊を例示したが、これに限らない。たとえば、アクセル操作量ＰＡに対するスロットル開口度指令値ＴＡ＊の応答性を、無駄時間および２次遅れフィルタにて表現し、無駄時間と、２次遅れフィルタを規定する２つの変数との合計３つの変数を、スロットルバルブの開口度に関する変数としてもよい。ただし、その場合、状態変数は、アクセル操作量ＰＡの時系列データに代えて、アクセル操作量ＰＡの単位時間当たりの変化量とすることが望ましい。

上記実施形態では、行動変数としての点火時期に関する変数として、遅角量ａｏｐを例示したが、これに限らない。たとえば、ＫＣＳによる補正対象とされる点火時期自体であってもよい。

上記実施形態では、行動変数として、スロットルバルブの開口度に関する変数および点火時期に関する変数を例示したが、これに限らない。たとえば、スロットルバルブの開口度に関する変数および点火時期に関する変数に加えて、燃料噴射量を用いてもよい。また、それら３つに関しては、行動変数としてスロットルバルブの開口度に関する変数および燃料噴射量のみを採用したり、点火時期に関する変数および燃料噴射量のみを採用したりしてもよい。さらに、それら３つに関しては、行動変数としてそれらのうちの１つのみを採用してもよい。

また、「内燃機関について」の欄に記載したように、圧縮着火式の内燃機関の場合、スロットルバルブの開口度に関する変数に代えて噴射量に関する変数を用い、点火時期に関する変数に代えて噴射時期に関する変数を用いればよい。なお、噴射時期に関する変数に加えて、１燃焼サイクルにおける噴射回数に関する変数や、１燃焼サイクルにおける１つの気筒のための時系列的に隣接した２つの燃料噴射のうちの一方の終了タイミングと他方の開始タイミングとの間の時間間隔に関する変数を加えることが望ましい。

また、たとえば変速装置５０が有段変速装置の場合、クラッチの係合状態を油圧によって調整するためのソレノイドバルブの電流値等を行動変数としてもよい。
また、たとえば、下記「車両について」の欄に記載したように車両としてハイブリッド車や、電気自動車、燃料電池車を採用する場合、回転電機のトルクや出力を行動変数としてもよい。またたとえば、内燃機関のクランク軸の回転動力によって回転するコンプレッサを備えた車載空調装置を備える場合、コンプレッサの負荷トルクを行動変数に含めてもよい。また、電動式の車載空調装置を備える場合、空調装置の消費電力を行動変数に含めてもよい。

・「状態について」
上記実施形態では、アクセル操作量ＰＡの時系列データを、等間隔でサンプリングされた６個の値からなるデータとしたが、これに限らない。互いに異なるサンプリングタイミングにおける２個以上のサンプリング値からなるデータであればよく、この際、３個以上のサンプリング値からなるデータや、サンプリング間隔が等間隔であるデータであることがより望ましい。

アクセル操作量に関する状態変数としては、アクセル操作量ＰＡの時系列データに限らず、たとえば「行動変数について」の欄に記載したように、アクセル操作量ＰＡの単位時間当たりの変化量等であってもよい。

また、たとえば「行動変数について」の欄に記載したように、ソレノイドバルブの電流値を行動変数とする場合、状態に、変速装置の入力軸５２の回転速度や出力軸５４の回転速度、ソレノイドバルブによって調整される油圧を含めればよい。またたとえば「行動変数について」の欄に記載したように、回転電機のトルクや出力を行動変数とする場合、状態に、バッテリの充電率や温度を含めればよい。またたとえば「行動変数について」の欄に記載したように、コンプレッサの負荷トルクや空調装置の消費電力を行動に含める場合、状態に、車室内の温度を含めればよい。

・「テーブル形式のデータの次元削減について」
テーブル形式のデータの次元削減手法としては、上記実施形態において例示したものに限らない。たとえばアクセル操作量ＰＡが最大値となることはまれであることから、アクセル操作量ＰＡが規定量以上となる状態については行動価値関数Ｑを定義せず、アクセル操作量ＰＡが規定量以上となる場合のスロットル開口度指令値ＴＡ＊等は、別途適合してもよい。またたとえば、行動のとりうる値からスロットル開口度指令値ＴＡ＊が規定値以上となるものを除くなどして、次元削減をしてもよい。

・「関係規定データについて」
上記実施形態では、行動価値関数Ｑを、テーブル形式の関数としたが、これに限らない。たとえば、関数近似器を用いてもよい。

たとえば、行動価値関数Ｑを用いる代わりに、方策πを、状態ｓおよび行動ａを独立変数とし、行動ａをとる確率を従属変数とする関数近似器にて表現し、関数近似器を定めるパラメータを、報酬ｒに応じて更新してもよい。

・「操作処理について」
たとえば「関係規定データについて」の欄に記載したように、行動価値関数を関数近似器とする場合、上記実施形態におけるテーブル型式の関数の独立変数となる行動についての離散的な値の組の全てについて、状態ｓとともに行動価値関数Ｑに入力することによって、行動価値関数Ｑを最大化する行動ａを選択すればよい。

また、たとえば「関係規定データについて」の欄に記載したように、方策πを、状態ｓおよび行動ａを独立変数とし、行動ａをとる確率を従属変数とする関数近似器とする場合、方策πによって示される確率に基づき行動ａを選択すればよい。

・「更新写像について」
Ｓ３８〜Ｓ４４の処理においては、εソフト方策オン型モンテカルロ法によるものを例示したが、これに限らない。たとえば、方策オフ型モンテカルロ法によるものであってもよい。もっとも、モンテカルロ法にも限らず、たとえば、方策オフ型ＴＤ法を用いたり、またたとえばＳＡＲＳＡ法のように方策オン型ＴＤ法を用いたり、またたとえば、方策オン型の学習として適格度トレース法を用いたりしてもよい。

また、たとえば「関係規定データについて」の欄に記載したように、方策πを関数近似器を用いて表現し、これを報酬ｒに基づき直接更新する場合には、方策勾配法等を用いて更新写像を構成すればよい。

また、行動価値関数Ｑと方策πとのうちのいずれか一方のみを、報酬ｒによる直接の更新対象とするものに限らない。たとえば、アクター・クリティック法のように、行動価値関数Ｑおよび方策πをそれぞれ更新してもよい。また、アクター・クリティック法においては、これに限らず、たとえば行動価値関数Ｑに代えて価値関数Ｖを更新対象としてもよい。

なお、方策πを定める「ε」については、固定値に限らず、学習の進行度合いに応じてあらかじめ定められた規則に応じて変更してもよい。
・「報酬算出処理について」
図３の処理では、条件（ア）および条件（イ）の論理積が真であるか否かに応じて報酬を与えたが、これに限らない。たとえば、条件（ア）を満たすか否かに応じて報酬を与える処理と、条件（イ）を満たすか否かに応じて報酬を与える処理とを実行してもよい。また、たとえば、条件（ア）を満たすか否かに応じて報酬を与える処理と、条件（イ）を満たすか否かに応じて報酬を与える処理との２つの処理に関しては、それらのうちのいずれか１つの処理のみを実行してもよい。

また、たとえば条件（ア）を満たす場合に一律同じ報酬を与える代わりに、トルクＴｒｑとトルク指令値Ｔｒｑ＊との差の絶対値が小さい場合に大きい場合よりもより大きい報酬を与える処理としてもよい。またたとえば、条件（ア）を満たさない場合に一律同じ報酬を与える代わりに、トルクＴｒｑとトルク指令値Ｔｒｑ＊との差の絶対値が大きい場合に小さい場合よりもより小さい報酬を与える処理としてもよい。

また、たとえば条件（イ）を満たす場合に一律同じ報酬を与える代わりに、加速度Ｇｘの大きさに応じて報酬の大きさを可変とする処理としてもよい。またたとえば、条件（イ）を満たさない場合に一律同じ報酬を与える代わりに、加速度Ｇｘの大きさに応じて報酬の大きさを可変とする処理としてもよい。

上記実施形態では、報酬ｒを、ドライバビリティに関する基準を満たすか否かに応じて与えたが、ドライバビリティに関する基準としては、上述したものに限らず、たとえば騒音や振動強度が基準を満たすか否かに応じて設定してもよい。もっともこれに限らず、上記加速度が基準を満たすか否かと、トルクＴｒｑの追従性が基準を満たすか否かと、騒音が基準を満たすか否かと、振動強度が基準を満たすか否かとの４つのうちの任意の１つ以上であってよい。

報酬算出処理としては、報酬ｒを、ドライバビリティに関する基準を満たすか否かに応じて与えるものにも限らない。たとえば、燃料消費率が基準を満たす場合に満たさない場合よりも大きい報酬を与える処理であってもよい。またたとえば、排気特性が基準を満たす場合に満たさない場合よりも大きい報酬を与える処理であってもよい。なお、ドライバビリティに関する基準を満たす場合に満たさない場合よりも大きい報酬を与える処理と、燃料消費率が基準を満たす場合に満たさない場合よりも大きい報酬を与える処理と、排気特性が基準を満たす場合に満たさない場合よりも大きい報酬を与える処理との３つの処理のうちの２つまたは３つを含んでもよい。

また、たとえば「行動変数について」の欄に記載したように、変速装置５０のソレノイドバルブの電流値を行動変数とする場合、たとえば報酬算出処理に以下の（ａ）〜（ｃ）の３つの処理のうちの少なくとも１つの処理を含めればよい。

（ａ）変速装置による変速比の切り替えに要する時間が所定時間以内である場合に所定時間を超える場合よりも大きい報酬を与える処理である。
（ｂ）変速装置の入力軸５２の回転速度の変化速度の絶対値が入力側所定値以下である場合に入力側所定値を超える場合よりも大きい報酬を与える処理である。

（ｃ）変速装置の出力軸５４の回転速度の変化速度の絶対値が出力側所定値以下である場合に出力側所定値を超える場合よりも大きい報酬を与える処理である。
また、たとえば「行動変数について」の欄に記載したように、回転電機のトルクや出力を行動変数とする場合、バッテリの充電率が所定範囲内にある場合にない場合よりも大きい報酬を与える処理や、バッテリの温度が所定範囲内にある場合にない場合よりも大きい報酬を与える処理を含めてもよい。また、たとえば「行動変数について」の欄に記載したように、コンプレッサの負荷トルクや空調装置の消費電力を行動変数に含める場合、車室内の温度が所定範囲内にある場合にない場合よりも大きい報酬を与える処理を加えてもよい。

・「車両用制御システムについて」
車両用制御システムとしては、制御装置７０およびデータ解析センター１１０によって構成されるものに限らない。たとえば、データ解析センター１１０に代えて、ユーザが所持する携帯端末を用い、制御装置７０および携帯端末によって車両用制御システムを構成してもよい。また、たとえば、制御装置７０、携帯端末、およびデータ解析センター１１０によって構成してもよい。

・「実行装置について」
実行装置としては、ＣＰＵ７２（１１２）とＲＯＭ７４（１１４）とを備えて、ソフトウェア処理を実行するものに限らない。たとえば、上記実施形態においてソフトウェア処理されたものの少なくとも一部を、ハードウェア処理するたとえばＡＳＩＣ等の専用のハードウェア回路を備えてもよい。すなわち、実行装置は、以下の（ａ）〜（ｃ）のいずれかの構成であればよい。（ａ）上記処理の全てを、プログラムに従って実行する処理装置と、プログラムを記憶するＲＯＭ等のプログラム格納装置とを備える。（ｂ）上記処理の一部をプログラムに従って実行する処理装置およびプログラム格納装置と、残りの処理を実行する専用のハードウェア回路とを備える。（ｃ）上記処理の全てを実行する専用のハードウェア回路を備える。ここで、処理装置およびプログラム格納装置を備えたソフトウェア実行装置や、専用のハードウェア回路は複数であってもよい。

・「記憶装置について」
上記実施形態では、関係規定データＤＲが記憶される記憶装置と、学習プログラム７４ｂや制御プログラム７４ａが記憶される記憶装置（ＲＯＭ７４）とを別の記憶装置としたが、これに限らない。

・「内燃機関について」
内燃機関としては、燃料噴射弁として吸気通路１２に燃料を噴射するポート噴射弁を備えるものに限らず、燃焼室２４に燃料を直接噴射する筒内噴射弁を備えるものであってもよく、またたとえば、ポート噴射弁および筒内噴射弁の双方を備えるものであってもよい。

内燃機関としては、火花点火式内燃機関に限らず、たとえば燃料として軽油などを用いる圧縮着火式内燃機関等であってもよい。
・「車両について」
車両としては、推力生成装置が内燃機関のみである車両に限らず、たとえば内燃機関と回転電機とを備えるいわゆるハイブリッド車両であってもよい。またたとえば、推力生成装置として、内燃機関を備えることなく、回転電機を備えるいわゆる電気自動車や燃料電池車あってもよい。

１０…内燃機関、１２…吸気通路、１４…スロットルバルブ、１６…燃料噴射弁、１８…吸気バルブ、２０…シリンダ、２２…ピストン、２４…燃焼室、２６…点火装置、２８…クランク軸、３０…排気バルブ、３２…排気通路、３４…触媒、４０…トルクコンバータ、４２…ロックアップクラッチ、５０…変速装置、５２…入力軸、５４…出力軸、６０…駆動輪、７０…制御装置、７２…ＣＰＵ、７４…ＲＯＭ、７４ａ…制御プログラム、７４ｂ…学習プログラム、７４ｃ…学習用メインプログラム、７６…記憶装置、７７…通信機、７８…周辺回路、７９…ローカルネットワーク、８０…エアフローメータ、８２…スロットルセンサ、８４…クランク角センサ、８６…アクセルペダル、８８…アクセルセンサ、９０…加速度センサ、１００…ネットワーク、１１０…データ解析センター、１１２…ＣＰＵ、１１４…ＲＯＭ、１１４ａ…学習用サブプログラム、１１６…記憶装置、１１７…通信機、１１８…周辺回路、１１９…ローカルネットワーク。

Claims

実行装置および記憶装置を備え、
前記記憶装置には、車両の状態と前記車両内の電子機器の操作に関する変数である行動変数との関係を規定する関係規定データが記憶されており、
前記実行装置は、
前記車両の状態を検出するセンサの検出値を取得する取得処理と、
前記取得処理によって取得された前記検出値と前記関係規定データとによって定まる前記行動変数の値に基づき前記電子機器を操作する操作処理と、
前記取得処理によって取得された前記検出値に基づき、前記車両の特性が基準を満たす場合に満たさない場合よりも大きい報酬を与える報酬算出処理と、
前記取得処理によって取得された前記検出値に基づく前記車両の状態、前記電子機器の操作に用いられた前記行動変数の値、および該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、
前記車両内の部品のうち前記操作処理による操作によって生じる前記車両の状態に影響を及ぼす部品の機能回復処置がなされたことを検知する検知処理と、
前記検知処理によって機能回復処置がなされたことが検知される場合、前記操作処理に利用する前記関係規定データを、処置後用データに切り替える切替処理と、
を実行し、
前記更新写像は、前記関係規定データに従って前記電子機器が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものであり、
前記切替処理は、前記処置後用データとして、前記車両の走行に伴う前記更新処理が実行される前の前記関係規定データである初期データを用いる処理を含む車両用制御装置。
前記実行装置は、前記更新処理による更新がなされる前記関係規定データとは別に、所定の条件が成立するまでは前記更新処理による更新がなされて且つ前記所定の条件が成立した後には前記更新処理による更新を回避した前記関係規定データを前記記憶装置に記憶させた状態とする過去データ維持処理を実行し、
前記切替処理は、前記処置後用データを、前記過去データ維持処理によって前記所定の条件が成立する前に限って前記更新処理による更新がなされた前記関係規定データとするか前記初期データとするかを選択する処理を含む請求項１記載の車両用制御装置。
前記実行装置は、前記検知処理によって前記機能回復処置がなされたと検知される場合、前記処置後用データを要求する信号を送信する処置後用データ要求処理と、前記処置後用データ要求処理の結果、送信された前記処置後用データを受信する処置後用データ受信処理と、を実行し、
前記切替処理は、前記操作処理に利用する前記関係規定データを、受信した前記処置後用データに切り替える処理を含む請求項１または２記載の車両用制御装置。
請求項１または２記載の前記実行装置および前記記憶装置を備え、
前記実行装置は、前記車両に搭載される第１実行装置と、車載装置とは別の第２実行装置と、を含み、
前記第２実行装置は、前記検知処理によって機能回復処置がなされたことが検知される場合に前記処置後用データを送信する処置後用データ送信処理を少なくとも実行し、
前記第１実行装置は、前記取得処理、前記操作処理、および前記処置後用データ送信処理によって送信されたデータを受信する処置後用データ受信処理を少なくとも実行する車両用制御システム。
前記第１実行装置は、前記検知処理、および前記検知処理によって前記機能回復処置がなされたと検知される場合に前記処置後用データを要求する信号を送信する処置後用データ要求処理を実行する請求項４記載の車両用制御システム。
前記更新処理は、前記第１実行装置によって実行される請求項４または５記載の車両用制御システム。
請求項４〜６のいずれか１項に記載の前記第１実行装置を備える車両用制御装置。
請求項４〜６のいずれか１項に記載の前記第２実行装置を備える車両用学習装置。