JP7205460B2

JP7205460B2 - 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置

Info

Publication number: JP7205460B2
Application number: JP2019236065A
Authority: JP
Inventors: 洋介橋本; 章弘片山; 裕太大城; 和紀杉江; 尚哉岡
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2023-01-17
Anticipated expiration: 2039-12-26
Also published as: JP2021105343A

Description

本発明は、車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置に関する。

たとえば下記特許文献１には、アクセルペダルの操作量をフィルタ処理した値に基づき、車両に搭載される内燃機関の操作部としてのスロットルバルブを操作する制御装置が記載されている。

特開２０１６－６３２７号公報

ところで、上記フィルタは、アクセルペダルの操作量に応じて車両に搭載される内燃機関のスロットルバルブの操作量を適切な操作量に設定するものである必要があることから、その適合には熟練者が多くの工数をかける必要が生じる。このように、従来は、車両の状態に応じた車両内の電子機器の操作量等の適合には、熟練者が多くの工数をかけていた。

以下、上記課題を解決するための手段およびその作用効果について記載する。
１．車両の状態と前記車両内の電子機器の操作に関する変数である行動変数との関係を規定する関係規定データが記憶装置に記憶された状態で、センサの検出値に基づく前記車両の状態、および前記車両の走行する道路を特定する変数である道路変数を取得する取得処理と、前記電子機器を操作する操作処理と、前記取得処理によって取得された前記車両の状態に基づき、前記車両の特性が基準を満たす場合に満たさない場合よりも大きい報酬を与える報酬算出処理と、前記取得処理によって取得された前記車両の状態、前記電子機器の操作に用いられた前記行動変数の値、および該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、を実行装置に実行させ、前記更新写像は、前記関係規定データに従って前記電子機器が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものであり、前記報酬算出処理は、前記道路変数の値が第１の値である場合に前記車両の特性が所定の特性であるときに与える前記報酬に対して前記道路変数の値が第２の値である場合に前記車両の特性が前記所定の特性であるときに与える報酬を変更する変更処理を含む車両用制御データの生成方法である。

上記方法では、電子機器の操作に伴う報酬を算出することによって、当該操作によってどのような報酬が得られるかを把握することができる。そして、報酬に基づき、強化学習に従った更新写像によって関係規定データを更新することにより、車両の状態と行動変数との適切な関係を設定することができる。したがって、車両の状態と行動変数との適切な関係を設定する際、熟練者に要求される工数を削減できる。

ところで、道路が高速道であるか一般道であるか、合流部であるか否か、勾配が大きいか否か、曲率が大きいか否かに応じて、車両に対する要求要素は互いに異なったものとなり得る。そこで上記方法では、道路変数に応じて報酬の与え方を変更することにより、道路に応じた適切な関係規定データを強化学習によって学習できる。

２．前記道路変数は、一般道から高速道へと合流する合流部である旨、および一般道である旨を識別する変数であり、前記報酬算出処理は、アクセルレスポンスに関する基準を満たす場合に満たさない場合よりも大きい報酬を与える処理と、エネルギ利用効率が高い場合に低い場合よりも大きい報酬を与える処理との２つの処理を含み、前記変更処理は、前記一般道と比較して前記合流部において、前記アクセルレスポンスを高める方がより大きい報酬をうるうえで有利となるように前記２つの処理のうちの少なくとも１つの処理を変更する処理を含む上記１記載の車両用制御データの生成方法である。

上記構成では、合流部において、アクセルレスポンスを高める制御が可能となる関係規定データを強化学習によって学習できる。
３．前記更新処理によって更新された前記関係規定データに基づき、前記車両の状態と前記期待収益を最大化する前記行動変数の値とを対応付けることによって前記車両の状態を入力とし前記期待収益を最大化する前記行動変数の値を出力する制御用写像データを生成する処理を前記実行装置に実行させる上記１または２記載の車両用制御データの生成方法である。

上記方法では、強化学習によって学習された関係規定データに基づき、制御用写像データを生成する。そのため、その制御用写像データを制御装置に実装することにより、車両の状態および行動変数に基づき、期待収益を最大化する行動変数の値を簡易に設定することが可能となる。

４．上記１または２記載の前記記憶装置および前記実行装置を備え、前記操作処理は、前記関係規定データに基づき前記車両の状態に応じた行動変数の値に従って前記電子機器を操作する処理を含む車両用制御装置である。

上記構成では、強化学習によって学習された関係規定データに基づき行動変数の値が設定され、それに基づき電子機器が操作されることにより、期待収益を大きくするように電子機器を操作することができる。

５．上記４記載の前記実行装置および前記記憶装置を備え、前記実行装置は、前記車両に搭載される第１実行装置と、車載装置とは別の第２実行装置と、を含み、前記第１実行装置は、少なくとも前記取得処理および前記操作処理を実行し、前記第２実行装置は、少なくとも前記更新処理を実行する車両用制御システムである。

上記構成では、更新処理を第２実行装置によって実行することにより、更新処理を第１実行装置が実行する場合と比較して、第１実行装置の演算負荷を軽減できる。
なお、第２実行装置が車載装置とは別の装置であることは、第２実行装置が車載装置ではないことを意味する。

６．上記５記載の第１実行装置を備える車両用制御装置である。
７．上記５記載の第２実行装置を備える車両用学習装置である。

本実施形態にかかる制御装置および駆動系を示す図。同実施形態にかかる制御装置が実行する処理の手順を示す流れ図。同実施形態にかかるマップデータを生成するシステムを示す図。同実施形態にかかるシステムが実行する処理の手順を示す流れ図。同実施形態にかかる学習処理の詳細を示す流れ図。同実施形態にかかるマップデータの生成処理の手順を示す流れ図。第２の実施形態にかかる制御装置および駆動系を示す図。同実施形態にかかる制御装置が実行する処理の手順を示す流れ図。第３の実施形態にかかるシステムの構成を示す図。（ａ）および（ｂ）は、同実施形態にかかるシステムが実行する処理の手順を示す流れ図。

以下、車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置にかかる実施形態について図面を参照しつつ説明する。
＜第１の実施形態＞
図１に、本実施形態にかかる車両ＶＣ１の駆動系および制御装置の構成を示す。

図１に示すように、内燃機関１０の吸気通路１２には、上流側から順にスロットルバルブ１４および燃料噴射弁１６が設けられており、吸気通路１２に吸入された空気や燃料噴射弁１６から噴射された燃料は、吸気バルブ１８の開弁に伴って、シリンダ２０およびピストン２２によって区画される燃焼室２４に流入する。燃焼室２４内において、燃料と空気との混合気は、点火装置２６の火花放電に伴って燃焼に供され、燃焼によって生じたエネルギは、ピストン２２を介してクランク軸２８の回転エネルギに変換される。燃焼に供された混合気は、排気バルブ３０の開弁に伴って、排気として排気通路３２に排出される。排気通路３２には、排気を浄化する後処理装置としての触媒３４が設けられている。

クランク軸２８には、ロックアップクラッチ４２を備えたトルクコンバータ４０を介して、変速装置５０の入力軸５２が機械的に連結可能とされている。変速装置５０は、入力軸５２の回転速度と出力軸５４の回転速度との比である変速比を可変とする装置である。出力軸５４には、駆動輪６０が機械的に連結されている。

制御装置７０は、内燃機関１０を制御対象とし、その制御量であるトルクや排気成分比率等を制御すべく、スロットルバルブ１４、燃料噴射弁１６および点火装置２６等の内燃機関１０の操作部を操作する。また、制御装置７０は、トルクコンバータ４０を制御対象とし、ロックアップクラッチ４２の係合状態を制御すべくロックアップクラッチ４２を操作する。また、制御装置７０は、変速装置５０を制御対象とし、その制御量としての変速比を制御すべく変速装置５０を操作する。なお、図１には、スロットルバルブ１４、燃料噴射弁１６、点火装置２６、ロックアップクラッチ４２、および変速装置５０のそれぞれの操作信号ＭＳ１～ＭＳ５を記載している。

制御装置７０は、制御量の制御のために、エアフローメータ８０によって検出される吸入空気量Ｇａや、スロットルセンサ８２によって検出されるスロットルバルブ１４の開口度（スロットル開口度ＴＡ）、クランク角センサ８４の出力信号Ｓｃｒを参照する。また制御装置７０は、アクセルセンサ８８によって検出されるアクセルペダル８６の踏み込み量（アクセル操作量ＰＡ）や、加速度センサ９０によって検出される車両ＶＣ１の前後方向の加速度Ｇｘを参照する。また、制御装置７０は、全地球測位システム（ＧＰＳ９２）による位置データＰｇｐｓや、シフトポジションセンサ９４によって検出される変速比ＧＲ、車速センサ９６によって検出される車速Ｖを参照する。

制御装置７０は、ＣＰＵ７２、ＲＯＭ７４、電気的に書き換え可能な不揮発性メモリ（記憶装置７６）、および周辺回路７８を備え、それらがローカルネットワーク７９を介して通信可能とされている。ここで、周辺回路７８は、内部の動作を規定するクロック信号を生成する回路や、電源回路、リセット回路等を含む。

ＲＯＭ７４には、制御プログラム７４ａが記憶されている。一方、記憶装置７６には、現在の変速比ＧＲ、車速Ｖ、およびアクセル操作量ＰＡの時系列データを入力変数とし、スロットル開口度ＴＡの指令値であるスロットル開口度指令値ＴＡ＊および変速比ＧＲの指令値である変速比指令値ＧＲ＊を出力変数とするマップデータＤＭと、地図データＤＧとが記憶されている。ここで、マップデータＤＭは、高応答マップデータＤＭ１と、高効率マップデータＤＭ２とを含む。なお、マップデータとは、入力変数の離散的な値と、入力変数の値のそれぞれに対応する出力変数の値と、の組データである。

図２に、本実施形態にかかる制御装置７０が実行する処理の手順を示す。図２に示す処理は、ＲＯＭ７４に記憶されたプログラムをＣＰＵ７２がたとえば所定周期で繰り返し実行することにより実現される。なお、以下では、先頭に「Ｓ」が付与された数字によって、各処理のステップ番号を表現する。

図２に示す一連の処理において、ＣＰＵ７２は、まず、位置データＰｇｐｓを取得する（Ｓ１０）。そして、ＣＰＵ７２は、位置データＰｇｐｓによって地図データＤＧが示す地図上の位置を特定し、その位置が一般道から高速道への合流部に該当するか否かを判定する（Ｓ１２）。そしてＣＰＵ７２は、合流部であると判定する場合（Ｓ１２：ＹＥＳ）、高応答マップデータＤＭ１を選択する（Ｓ１４）一方、合流部ではないと判定する場合（Ｓ１２：ＮＯ）、高効率マップデータを選択する（Ｓ１６）。

ＣＰＵ７２は、Ｓ１４，１６の処理を完了する場合、アクセル操作量ＰＡの６個のサンプリング値「ＰＡ（１），ＰＡ（２），…ＰＡ（６）」からなる時系列データと、現在の変速比ＧＲと、車速Ｖとを取得する（Ｓ１８）。ここで、時系列データを構成する各サンプリング値は、互いに異なるタイミングにおいてサンプリングされたものである。本実施形態では、一定のサンプリング周期でサンプリングされる場合の、互いに時系列的に隣り合う６個のサンプリング値によって時系列データを構成する。

そして、ＣＰＵ７２は、Ｓ１４の処理またはＳ１６の処理によって選択されたマップを用いて、スロットル開口度指令値ＴＡ＊および変速比指令値ＧＲ＊をマップ演算する（Ｓ２０）。ここで、マップ演算は、たとえば、入力変数の値がマップデータの入力変数の値のいずれかに一致する場合、対応するマップデータの出力変数の値を演算結果とするのに対し、一致しない場合、マップデータに含まれる複数の出力変数の値の補間によって得られる値を演算結果とする処理とすればよい。

そして、ＣＰＵ７２は、スロットルバルブ１４に操作信号ＭＳ１を出力してスロットル開口度ＴＡを操作するとともに、変速装置５０に操作信号ＭＳ５を出力して変速比を操作する（Ｓ２２）。ここで、本実施形態では、スロットル開口度ＴＡをスロットル開口度指令値ＴＡ＊にフィードバック制御することを例示することから、スロットル開口度指令値ＴＡ＊が同一の値であっても、操作信号ＭＳ１が互いに異なる信号となりうるものである。

なお、ＣＰＵ７２は、Ｓ２２の処理が完了する場合、図２に示す一連の処理を一旦終了する。
図３に、上記マップデータＤＭを生成するシステムを示す。

図３に示すように、本実施形態では、内燃機関１０のクランク軸２８にトルクコンバータ４０および変速装置５０を介してダイナモメータ１００を機械的に連結する。そして内燃機関１０を稼働させた際の様々な状態変数がセンサ群１０２によって検出され、検出結果が、マップデータＤＭを生成するコンピュータである生成装置１１０に入力される。なお、センサ群１０２には、図１に示した車両ＶＣ１に搭載されるセンサ等が含まれる。

生成装置１１０は、ＣＰＵ１１２、ＲＯＭ１１４、電気的に書き換え可能な不揮発性メモリ（記憶装置１１６）、および周辺回路１１８を備えており、それらがローカルネットワーク１１９によって通信可能とされたものである。ここで、記憶装置１１６には、状態変数としての、アクセル操作量ＰＡの時系列データ、車速Ｖおよび変速比ＧＲと、行動変数としてのスロットル開口度指令値ＴＡ＊および変速比指令値ＧＲ＊との関係を規定するデータである関係規定データＤＲが記憶されている。関係規定データＤＲは、高応答規定データＤＲ１と、高効率規定データＤＲ２と、を含む。また、ＲＯＭ１１４には、強化学習によって、関係規定データＤＲを学習する学習プログラム１１４ａが記憶されている。

図４に、生成装置１１０が実行する処理の手順を示す。図４に示す処理は、ＲＯＭ１１４に記憶された学習プログラム１１４ａを、ＣＰＵ１１２が実行することにより実現される。

図４に示す一連の処理において、ＣＰＵ１１２は、まず、合流部か否かを示す変数である道路変数ＶＲの値を設定する（Ｓ３０）。そしてＣＰＵ１１２は、内燃機関１０を稼働させた状態において、状態ｓとして、アクセル操作量ＰＡの時系列データと、現在の変速比ＧＲと、車速Ｖと、を設定する（Ｓ３２）。ここでの時系列データは、Ｓ１８の処理におけるものと同様のデータである。ただし、図３に示すシステムにおいては、アクセルペダル８６は存在しない。そのため、アクセル操作量ＰＡを、生成装置１１０が車両ＶＣ１の状態を模擬することによって疑似的に生成されたものとし、疑似的に生成されたアクセル操作量ＰＡを、センサの検出値に基づく車両の状態とみなす。また、車速Ｖは、実際に車両が存在したと仮定した場合の車両の走行速度としてＣＰＵ１１２によって算出されるものであり、本実施形態では、この車速を、センサの検出値に基づく車両の状態とみなす。詳しくはＣＰＵ１１２は、クランク角センサ８４の出力信号Ｓｃｒに基づきクランク軸２８の回転速度ＮＥを算出し、回転速度ＮＥと変速比ＧＲとに基づき車速Ｖを算出する。

次にＣＰＵ１１２は、高応答規定データＤＲ１および高効率規定データＤＲ２の２つのデータのうちのＳ３０の処理によって設定された道路変数ＶＲの値に対応する方のデータが定める方策πに従い、Ｓ３２の処理によって取得した状態ｓに応じたスロットル開口度指令値ＴＡ＊および変速比指令値ＧＲ＊からなる行動ａを設定する（Ｓ３４）。

本実施形態において、関係規定データＤＲは、行動価値関数Ｑおよび方策πを定めるデータである。本実施形態において、行動価値関数Ｑは、状態ｓおよび行動ａの１０次元の独立変数に応じた期待収益の値を示すテーブル型式の関数である。また、方策πは、状態ｓが与えられたときに、独立変数が与えられた状態ｓとなる行動価値関数Ｑのうち最大となる行動ａ（グリーディ行動）を優先的に選択しつつも、所定の確率で、それ以外の行動ａを選択する規則を定める。

詳しくは、本実施形態にかかる行動価値関数Ｑの独立変数がとりうる値の数は、状態ｓおよび行動ａのとりうる値の全組み合わせの一部が、人の知見等によって削減されたものである。すなわち、たとえばアクセル操作量ＰＡの時系列データのうち隣接する２つのサンプリング値の１つがアクセル操作量ＰＡの最小値となりもう１つが最大値となるようなことは、人によるアクセルペダル８６の操作からは生じえないとして、行動価値関数Ｑが定義されていない。また、変速比ＧＲが２速から４速へと急激に変化することを回避すべく、たとえば現在の変速比ＧＲが２速の場合、とりうる行動ａとしての変速比指令値ＧＲ＊を１速と２速と３速とに制限している。すなわち、状態ｓとしての変速比ＧＲが２速の場合には４速以上の行動ａについては定義されていない。本実施形態では、人の知見等に基づく次元削減によって、行動価値関数Ｑを定義する独立変数の取りうる値を、１０の５乗個以下、より望ましくは１０の４乗個以下に制限する。

次にＣＰＵ１１２は、設定されたスロットル開口度指令値ＴＡ＊および変速比指令値ＧＲ＊に基づき、Ｓ２２の処理と同様にして操作信号ＭＳ１，ＭＳ５を出力する（Ｓ３６）。次にＣＰＵ１１２は、回転速度ＮＥ、変速比ＧＲ、内燃機関１０のトルクＴｒｑ、内燃機関１０に対するトルク指令値Ｔｒｑ＊、および加速度Ｇｘを取得する（Ｓ３８）。ここで、ＣＰＵ１１２は、トルクＴｒｑを、ダイナモメータ１００が生成する負荷トルクと変速比ＧＲとに基づき算出する。また、トルク指令値Ｔｒｑ＊は、アクセル操作量ＰＡおよび変速比ＧＲに応じて設定される。なお、ここでは、変速比指令値ＧＲ＊が強化学習の行動変数であることから、変速比指令値ＧＲ＊がトルク指令値Ｔｒｑ＊を内燃機関１０で実現できる最大トルク以下とするものとなっているとは限らず、そのため、トルク指令値Ｔｒｑ＊は、内燃機関１０で実現できる最大トルク以下の値とは限らない。また、ＣＰＵ１１２は、加速度Ｇｘを、ダイナモメータ１００の負荷トルク等に基づき、仮に内燃機関１０等が車両に搭載されていた場合に車両に生じると想定される値として算出する。すなわち、本実施形態においては、加速度Ｇｘについても仮想的なものであるが、この加速度Ｇｘについても、センサの検出値に基づく車両の状態とみなす。

次にＣＰＵ７２は、Ｓ３０の処理がなされたタイミングおよび後述のＳ４２の処理がなされたタイミングのうちのいずれか遅い方から所定期間が経過したか否かを判定する（Ｓ４０）。そして、ＣＰＵ１１２は、所定期間が経過したと判定する場合（Ｓ４０：ＹＥＳ）、強化学習によって行動価値関数Ｑを更新する（Ｓ４２）。

図５に、Ｓ４２の処理の詳細を示す。
図５に示す一連の処理において、ＣＰＵ１１２は、所定期間内における回転速度ＮＥ、トルク指令値Ｔｒｑ＊、トルクＴｒｑおよび加速度Ｇｘの４つのサンプリング値の組からなる時系列データと、状態ｓおよび行動ａの時系列データと、を取得する（Ｓ５０）。図５には、カッコの中の数字が異なるものが、異なるサンプリングタイミングにおける変数の値であることを示す。たとえば、トルク指令値Ｔｒｑ＊（１）とトルク指令値Ｔｒｑ＊（２）とは、サンプリングタイミングが互いに異なるものである。また、所定期間内の行動ａの時系列データを、行動集合Ａｊとし、所定期間内の状態ｓの時系列データを、状態集合Ｓｊと定義する。

次にＣＰＵ１１２は、トルクＴｒｑおよび回転速度ＮＥの時系列データに基づき、内燃機関１０の効率ηｅの時系列データと、基準効率ηｅｒの時系列データとを算出する（Ｓ５２）。詳しくは、ＣＰＵ１１２は、「ｋ＝１，２，３，…」として、トルクＴｒｑ（ｋ）と回転速度ＮＥ（ｋ）によって定まる動作点に基づき、内燃機関１０の効率ηｅ（ｋ）と基準効率ηｅｒ（ｋ）とを算出する。ここで、効率ηｅとは、内燃機関１０の動作点毎に定義され、内燃機関１０の燃焼室２４内の混合気の空燃比を所定値とし点火時期を所定時期とした場合に生じる燃焼エネルギのうち動力として取り出せる割合とする。また、基準効率ηｅｒは、内燃機関１０の出力毎に定義され、内燃機関１０の燃焼室２４内の混合気の空燃比を所定値とし点火時期を所定時期とした場合に生じる燃焼エネルギのうち動力として取り出せる割合の最大値に「１」よりも小さい所定の係数を乗算した値とする。すなわち、基準効率ηｅｒは、動力として取り出せる割合が最大となる動作点における同割合に所定の係数を乗算した値である。具体的には、たとえば、トルクＴｒｑおよび回転速度ＮＥを入力変数とし効率ηｅを出力変数とするマップデータがＲＯＭ７４に記憶された状態で、ＣＰＵ７２により効率ηｅがマップ演算される。また、たとえば、トルクＴｒｑおよび回転速度ＮＥの積である出力を入力変数とし基準効率ηｅｒを出力変数とするマップデータがＲＯＭ７４に記憶された状態で、ＣＰＵ７２により基準効率ηｅｒがマップ演算される。

次にＣＰＵ１１２は、効率ηｅ（ｋ）を基準効率ηｅｒ（ｋ）で除算した値から「１」を減算した値の積算値に係数Ｋを乗算した値を報酬ｒに代入する（Ｓ５４）。この処理によれば、基準効率ηｅｒよりも効率ηｅが大きい場合には、小さい場合よりも報酬ｒが大きい値となる。

ここで、ＣＰＵ１１２は、係数Ｋを、道路変数ＶＲに応じて可変とする。詳しくは、道路変数ＶＲが合流部ではない値の場合、合流部の場合と比較して、係数Ｋを大きい値に設定する。この設定は、合流部ではない場合に所定の報酬を与えるときの効率の基準を低くする設定である。すなわち、同一の報酬をうるときの効率ηｅが合流部ではない場合に低くなる。これにより、合流部ではない場合において、効率ηｅが高い動作点が選択されると、合流部の場合と比較して、報酬ｒが大きい値とされる。

次にＣＰＵ１１２は、所定期間内の任意のトルクＴｒｑとトルク指令値Ｔｒｑ＊との差の絶対値が規定量ΔＴｒｑ以下である旨の条件（ア）と、加速度Ｇｘが下限値ＧｘＬ以上であって上限値ＧｘＨ以下である旨の条件（イ）との論理積が真であるか否かを判定する（Ｓ５６）。

ここで、ＣＰＵ１１２は、規定量ΔＴｒｑを、エピソードの開始時におけるアクセル操作量ＰＡの単位時間当たりの変化量ΔＰＡと道路変数ＶＲの値とによって可変設定する。すなわち、ＣＰＵ１１２は、変化量ΔＰＡの絶対値が大きい場合には過渡時に関するエピソードであるとして、定常時である場合と比較して、規定量ΔＴｒｑを大きい値に設定する。また、ＣＰＵ１１２は、合流部ではない場合、合流部の場合と比較して、規定量ΔＴｒｑを大きい値に設定する。

また、ＣＰＵ１１２は、下限値ＧｘＬを、エピソードの開始時におけるアクセル操作量ＰＡの変化量ΔＰＡによって可変設定する。すなわち、ＣＰＵ１１２は、過渡時に関するエピソードであって且つ変化量ΔＰＡが正である場合には、定常時に関するエピソードの場合と比較して、下限値ＧｘＬを大きい値に設定する。また、ＣＰＵ１１２は、過渡時に関するエピソードであって且つ変化量ΔＰＡが負である場合には、定常時に関するエピソードの場合と比較して、下限値ＧｘＬを小さい値に設定する。

また、ＣＰＵ７２は、上限値ＧｘＨを、エピソードの開始時におけるアクセル操作量ＰＡの単位時間当たりの変化量ΔＰＡによって可変設定する。すなわち、ＣＰＵ７２は、過渡時に関するエピソードであって且つ変化量ΔＰＡが正である場合には、定常時に関するエピソードの場合と比較して、上限値ＧｘＨを大きい値に設定する。また、ＣＰＵ７２は、過渡時に関するエピソードであって且つ変化量ΔＰＡが負である場合には、定常時に関するエピソードの場合と比較して、上限値ＧｘＨを小さい値に設定する。

また、ＣＰＵ１１２は、下限値ＧｘＬおよび上限値ＧｘＨを道路変数ＶＲの値によって可変設定する。詳しくは、ＣＰＵ１１２は、合流部の場合、合流部ではない場合と比較して、過渡時における加速度Ｇｘの絶対値がより大きい値となるように下限値ＧｘＬおよび上限値ＧｘＨを設定する。

ＣＰＵ７２は、論理積が真であると判定する場合（Ｓ５６：ＹＥＳ）、報酬ｒに「Ｋ１・ｎ」を加算する一方（Ｓ５８）、偽であると判定する場合（Ｓ５６：ＮＯ）、報酬ｒから「Ｋ１・ｎ」を減算する（Ｓ６０）。ここで、「ｎ」は、所定期間における効率ηｅのサンプリング数を示す。Ｓ５６～Ｓ６０の処理は、アクセルレスポンスに関する基準を満たす場合に満たさない場合よりも大きい報酬を与える処理である。

ＣＰＵ１１２は、Ｓ５８，Ｓ６０の処理が完了する場合、アクセル操作量ＰＡの所定期間における最大値が閾値ＰＡｔｈ以上である旨の条件（ウ）を満たすか否かを判定する（Ｓ６２）。ここで、ＣＰＵ１１２は、合流部ではない場合に、合流部の場合と比較して、閾値ＰＡｔｈを大きい値に設定する。ＣＰＵ１１２は、条件（ウ）を満たすと判定する場合（Ｓ６２：ＹＥＳ）、報酬ｒから「Ｋ２・ｎ」を減算する（Ｓ６４）。すなわち、アクセル操作量ＰＡが過度に大きい場合、ユーザがトルク不足を感じているおそれがあることから、ペナルティを課すべく負の報酬を与える。

ＣＰＵ１１２は、Ｓ６４の処理が完了する場合やＳ６２の処理において否定判定する場合には、図３に示した記憶装置７６に記憶されている関係規定データＤＲを更新する。本実施形態では、εソフト方策オン型モンテカルロ法を用いる。

すなわち、ＣＰＵ１１２は、上記Ｓ５０の処理によって読み出した各状態と対応する行動との組によって定まる収益Ｒ（Ｓｊ，Ａｊ）に、それぞれ、報酬ｒを加算する（Ｓ６６）。ここで、「Ｒ（Ｓｊ，Ａｊ）」は、状態集合Ｓｊの要素の１つを状態とし行動集合Ａｊの要素の１つを行動とする収益Ｒを総括した記載である。次に、上記Ｓ５０の処理によって読み出した各状態と対応する行動との組によって定まる収益Ｒ（Ｓｊ，Ａｊ）のそれぞれについて、平均化して対応する行動価値関数Ｑ（Ｓｊ，Ａｊ）に代入する（Ｓ６８）。ここで、平均化は、Ｓ６８の処理がなされた回数によって、Ｓ６８の処理によって算出された収益Ｒを除算する処理とすればよい。なお、収益Ｒの初期値は、ゼロとすればよい。

次にＣＰＵ１１２は、上記Ｓ５０の処理によって読み出した状態について、それぞれ、対応する行動価値関数Ｑ（Ｓｊ，Ａ）のうち、最大値となるときのスロットル開口度指令値ＴＡ＊および変速比指令値ＧＲ＊の組である行動を、行動Ａｊ＊に代入する（Ｓ７０）。ここで、「Ａ」は、とりうる任意の行動を示す。なお、行動Ａｊ＊は、上記Ｓ５０の処理によって読み出した状態の種類に応じて各別の値となるものであるが、ここでは、表記を簡素化して、同一の記号にて記載している。

次に、ＣＰＵ１１２は、上記Ｓ５０の処理によって読み出した状態のそれぞれについて、対応する方策π（Ａｊ｜Ｓｊ）を更新する（Ｓ７２）。すなわち、行動の総数を、「｜Ａ｜」とすると、Ｓ７２によって選択された行動Ａｊ＊の選択確率を、「（１－ε）＋ε／｜Ａ｜」とする。また、行動Ａｊ＊以外の「｜Ａ｜－１」個の行動の選択確率を、それぞれ「ε／｜Ａ｜」とする。Ｓ７２の処理は、Ｓ６８の処理によって更新された行動価値関数Ｑに基づく処理であることから、これにより、状態ｓと行動ａとの関係を規定する関係規定データＤＲが、収益Ｒを増加させるように更新されることとなる。

なお、ＣＰＵ１１２は、Ｓ７２の処理が完了する場合、図５に示す一連の処理を一旦終了する。
図４に戻り、ＣＰＵ１１２は、Ｓ４２の処理が完了すると、行動価値関数Ｑが収束したか否かを判定する（Ｓ４４）。ここでは、Ｓ４２の処理による行動価値関数Ｑの更新量が所定値以下となる連続回数が所定回数に達する場合に収束したと判定すればよい。ＣＰＵ１１２は、収束していないと判定する場合（Ｓ４４：ＮＯ）や、Ｓ４０の処理において否定判定する場合には、Ｓ３２の処理に戻る。これに対し、ＣＰＵ１１２は、収束したと判定する場合（Ｓ４４：ＹＥＳ）、合流部と合流部以外との双方についてＳ４４の処理において肯定判定したか否かを判定する（Ｓ４６）。

ＣＰＵ１１２は、いずれか一方については未だＳ４４の処理において肯定判定していないと判定する場合（Ｓ４６：ＮＯ）、Ｓ３０の処理に戻って、道路変数ＶＲに未だ設定されていない値を代入する。ＣＰＵ１１２は、Ｓ４６の処理において肯定判定する場合、図４に示す一連の処理を一旦終了する。

図６に、生成装置１１０が実行する処理のうち、特に図４の処理によって学習された行動価値関数Ｑに基づき、マップデータＤＭを生成する処理の手順を示す。図６に示す処理は、ＲＯＭ１１４に記憶された学習プログラム１１４ａを、ＣＰＵ１１２が実行することにより実現される。

図６に示す一連の処理において、ＣＰＵ１１２は、まず、道路変数ＶＲの値を設定する（Ｓ８０）。そして、ＣＰＵ１１２は、マップデータＤＭの入力変数の値となる複数の状態ｓの中の１つを選択する（Ｓ８２）。次に、ＣＰＵ１１２は、高応答規定データＤＲ１および高効率規定データＤＲ２の２つのデータのうちのＳ８０の処理によって設定された道路変数ＶＲの値に対応する方によって規定される状態ｓに対応する行動価値関数Ｑ（ｓ，Ａ）のうち、行動価値関数Ｑの値を最大とする行動ａを選択する（Ｓ８４）。すなわち、ここでは、グリーディ方策によって行動ａを選択する。次に、ＣＰＵ１１２は、状態ｓと行動ａとの組を記憶装置１１６に記憶させる（Ｓ８６）。

次にＣＰＵ１１２は、マップデータＤＭの入力変数の値とするもの全てがＳ８２の処理によって選択されたか否かを判定する（Ｓ８８）。そして、ＣＰＵ１１２は、選択されていないものがあると判定する場合（Ｓ８８：ＮＯ）、Ｓ８２の処理に戻る。これに対し、ＣＰＵ１１２は、全てが選択されたと判定する場合（Ｓ８８：ＹＥＳ）、Ｓ８０の処理によって道路変数ＶＲの値としてとり得る全ての値が設定されたか否かを判定する（Ｓ９０）。ＣＰＵ１１２は、未だ設定されていない値があると判定する場合（Ｓ９０：ＮＯ）、Ｓ８０の処理に戻ってその値を設定する。

これに対し、ＣＰＵ１１２は、全ての値を設定済みと判定する場合（Ｓ９０：ＹＥＳ）、高応答マップデータＤＭ１および高効率マップデータＤＭ２を生成する（Ｓ９２）。ここでは、マップデータＤＭの入力変数の値が状態ｓであるものに対応する出力変数の値を、対応する行動ａとする。

なお、ＣＰＵ１１２は、Ｓ９２の処理が完了する場合、図６に示す一連の処理を一旦終了する。
ここで、本実施形態の作用および効果について説明する。

図３に示すシステムにおいて、ＣＰＵ１１２は、強化学習によって、行動価値関数Ｑを学習する。そして、行動価値関数Ｑの値が収束する場合、エネルギ利用効率に関して要求された基準とアクセルレスポンスに関して要求された基準とを満たすうえで適切な行動が学習されたとする。そして、ＣＰＵ１１２は、マップデータＤＭの入力変数となる状態のそれぞれについて、行動価値関数Ｑを最大化する行動を選択し、状態と行動との組を記憶装置１１６に記憶する。次に、ＣＰＵ１１２は、記憶装置１１６に記憶された状態と行動との組に基づき、マップデータＤＭを生成する。これにより、アクセル操作量ＰＡ、車速Ｖおよび変速比ＧＲに応じた適切なスロットル開口度指令値ＴＡ＊および変速比指令値ＧＲ＊を、熟練者による工数を過度に大きくすることなく設定することができる。

特に、本実施形態では、合流部であるか否かに応じて、状態ｓに応じた行動ａを各別に学習した。詳しくは、合流部ではない方がアクセルレスポンスに対する基準を緩和する一方、効率ηｅが高くなる方が優位となるように報酬を与えた。これにより、高効率規定データＤＲ２の学習の際には、アクセルレスポンスを比較的低くしても上記条件（ア）および条件（イ）を満たしてＳ５８の処理による報酬をうることができて且つ、効率ηｅを極力高くすることがトータルの報酬を大きくする上で有利となる。したがって、高効率マップデータＤＭ２を、エネルギ利用効率が高くなる制御が可能なデータとすることができる。

一方、高応答規定データＤＲ１の学習の際には、効率ηｅを高くした割にはＳ５４の処理で得られる報酬が小さくなることから、トータルの報酬を大きくする上では、上記条件（ア）および条件（イ）を満たしてＳ５８の処理による報酬をうることが有利となる。そのため、高応答マップデータＤＭ１を、ユーザのアクセル操作に対する応答性が良好な制御を可能とするデータとすることができる。

以上説明した本実施形態によれば、さらに以下に記載する作用および効果が得られる。
（１）制御装置７０が備える記憶装置７６に、行動価値関数Ｑ等ではなく、マップデータＤＭを記憶した。これにより、ＣＰＵ７２は、マップデータＤＭを用いたマップ演算に基づき、スロットル開口度指令値ＴＡ＊および変速比指令値ＧＲ＊を設定することから、行動価値関数Ｑのうち最大値となるものを選択する処理を実行する場合と比較して、演算負荷を軽減できる。

（２）行動価値関数Ｑの独立変数にアクセル操作量ＰＡの時系列データを含めた。これにより、アクセル操作量ＰＡに関して単一のサンプリング値のみを独立変数とする場合と比較して、アクセル操作量ＰＡの様々な変化に対して行動ａの値をきめ細かく調整できる。

（３）行動価値関数Ｑの独立変数に、スロットル開口度指令値ＴＡ＊自体を含めた。これにより、たとえば、スロットル開口度指令値ＴＡ＊の挙動をモデル化したモデル式のパラメータ等をスロットル開口度に関する独立変数とする場合と比較して、強化学習による探索の自由度を高めることが容易である。

＜第２の実施形態＞
以下、第２の実施形態について、第１の実施形態との相違点を中心に図面を参照しつつ説明する。

図７に、本実施形態にかかる車両ＶＣ１の駆動系および制御装置を示す。なお、図７において、図１に示した部材に対応する部材については、便宜上、同一の符号を付している。

図７に示すように、本実施形態では、ＲＯＭ７４に、制御プログラム７４ａに加えて、学習プログラム７４ｂが記憶されている。また、記憶装置７６に、マップデータＤＭが記憶されておらず、代わりに、関係規定データＤＲが記憶され、また、トルク出力写像データＤＴが記憶されている。ここで、関係規定データＤＲは、図４の処理によって学習された学習済みのデータであり、状態ｓをアクセル操作量ＰＡの時系列データ、車速Ｖおよび変速比ＧＲとし、行動ａを、スロットル開口度指令値ＴＡ＊および変速比指令値ＧＲ＊とするデータである。関係規定データＤＲは、高応答規定データＤＲ１と、高効率規定データＤＲ２とを含む。また、トルク出力写像データＤＴによって規定されるトルク出力写像は、回転速度ＮＥ、充填効率η、および点火時期を入力とし、トルクＴｒｑを出力するニューラルネットワーク等の学習済みモデルに関するデータである。なお、上記トルク出力写像データＤＴは、たとえば図４の処理を実行する際、Ｓ３８の処理によって取得されるトルクＴｒｑを教師データとして学習されたものとすればよい。なお、充填効率ηは、ＣＰＵ７２により、回転速度ＮＥおよび吸入空気量Ｇａに基づき算出すればよい。

図８に、本実施形態にかかる制御装置７０が実行する処理の手順を示す。図８に示す処理は、ＲＯＭ７４に記憶された制御プログラム７４ａおよび学習プログラム７４ｂを、ＣＰＵ７２がたとえば所定周期で繰り返し実行することにより実現される。なお、図８において、図４に示した処理に対応する処理については、便宜上同一のステップ番号を付与する。

図８に示す一連の処理において、ＣＰＵ７２は、まず図２のＳ１０，Ｓ１２の処理を実行し、合流部であると判定する場合（Ｓ１２：ＹＥＳ）、道路変数ＶＲに「１」を代入して且つ高応答規定データＤＲ１を選択する（Ｓ１００）。これに対し、ＣＰＵ７２は、合流部ではないと判定する場合（Ｓ１２：ＮＯ）、道路変数ＶＲに「２」を代入して且つ高効率規定データＤＲ２を選択する（Ｓ１０２）。ＣＰＵ１１２は、Ｓ１００，Ｓ１０２の処理が完了する場合、状態ｓとして、アクセル操作量ＰＡの時系列データと現在の変速比ＧＲと車速Ｖとを取得し（Ｓ３２ａ），図４のＳ３４～Ｓ４２の処理を実行する。なお、ＣＰＵ７２は、Ｓ４０の処理において否定判定する場合や、Ｓ４２の処理を完了する場合には、図８に示す一連の処理を一旦終了する。ちなみに、Ｓ１０，Ｓ１２，Ｓ１００，Ｓ１０２，Ｓ３２ａ，Ｓ３４～Ｓ４０の処理は、ＣＰＵ７２が制御プログラム７４ａを実行することにより実現され、Ｓ４２の処理は、ＣＰＵ７２が学習プログラム７４ｂを実行することにより実現される。

このように、本実施形態によれば、制御装置７０に関係規定データＤＲおよび学習プログラム７４ｂを実装することにより、第１の実施形態の場合と比較して、学習頻度を向上させることができる。

＜第３の実施形態＞
以下、第３の実施形態について、第２の実施形態との相違点を中心に図面を参照しつつ説明する。

本実施形態では、関係規定データＤＲの更新を、車両ＶＣ１の外で実行する。
図９に、本実施形態において、強化学習を実行する制御システムの構成を示す。なお、図９において、図１に示した部材に対応する部材については、便宜上、同一の符号を付している。

図９に示す車両ＶＣ１内の制御装置７０におけるＲＯＭ７４は、制御プログラム７４ａを記憶しているものの、学習プログラム７４ｂを記憶していない。また、制御装置７０は、通信機７７を備えている。通信機７７は車両ＶＣ１の外部のネットワーク１２０を介してデータ解析センター１３０と通信するための機器である。

データ解析センター１３０は、複数の車両ＶＣ１，ＶＣ２，…から送信されるデータを解析する。データ解析センター１３０は、ＣＰＵ１３２、ＲＯＭ１３４、電気的に書き換え可能な不揮発性メモリ（記憶装置１３６）、周辺回路１３８および通信機１３７を備えており、それらがローカルネットワーク１３９によって通信可能とされるものである。ＲＯＭ１３４には、学習プログラム１３４ａが記憶されており、記憶装置１３６には、関係規定データＤＲが記憶されている。

図１０に、本実施形態にかかる強化学習の処理手順を示す。図１０（ａ）に示す処理は、図９に示すＲＯＭ７４に記憶されている制御プログラム７４ａをＣＰＵ７２が実行することにより実現される。また、図１０（ｂ）に示す処理は、ＲＯＭ１３４に記憶されている学習プログラム１３４ａをＣＰＵ１３２が実行することにより実現される。なお、図１０において図８に示した処理に対応する処理については、便宜上同一のステップ番号を付している。以下では、強化学習の時系列に沿って、図１０に示す処理を説明する。

図１０（ａ）に示す一連の処理において、ＣＰＵ７２は、Ｓ１０，Ｓ１２，Ｓ１００，Ｓ１０２，Ｓ３２ａ，Ｓ３４～Ｓ３８の処理を実行し、所定期間が経過したと判定する場合（Ｓ４０：ＹＥＳ）、通信機７７を操作することによって、関係規定データＤＲの更新処理に必要なデータを送信する（Ｓ１１０）。ここで、送信対象とされるデータは、所定期間内の道路変数ＶＲの値や、回転速度ＮＥ、トルク指令値Ｔｒｑ＊、トルクＴｒｑおよび加速度Ｇｘの時系列データ、状態集合Ｓｊおよび行動集合Ａｊを含む。

これに対し、図１０（ｂ）に示すように、ＣＰＵ１３２は、送信されたデータを受信し（Ｓ１２０）、受信したデータに基づき関係規定データＤＲを更新する（Ｓ４２）。そしてＣＰＵ１３２は、関係規定データＤＲの更新回数が所定回数以上であるか否かを判定し（Ｓ１２２）、所定回数以上であると判定する場合（Ｓ１２２：ＹＥＳ）、通信機１３７を操作して、Ｓ１２０の処理によって受信したデータを送信した車両ＶＣ１に関係規定データＤＲを送信する（Ｓ１２４）。なお、ＣＰＵ１３２は、Ｓ１２４の処理を完了する場合や、Ｓ１２２の処理において否定判定する場合には、図１０（ｂ）に示す一連の処理を一旦終了する。

これに対し、図１０（ａ）に示すように、ＣＰＵ７２は、更新データがあるか否かを判定し（Ｓ１１２）、あると判定する場合（Ｓ１１２：ＹＥＳ）、更新された関係規定データＤＲを受信する（Ｓ１１４）。そしてＣＰＵは、Ｓ３４の処理において利用する関係規定データＤＲを、受信した関係規定データＤＲに書き換える（Ｓ１１６）。なお、ＣＰＵ７２は、Ｓ１１６の処理を完了する場合や、Ｓ４０，Ｓ１１２の処理において否定判定する場合には、図１０（ａ）に示す一連の処理を一旦終了する。

このように、本実施形態によれば、関係規定データＤＲの更新処理を車両ＶＣ１の外部で行うことから、制御装置７０の演算負荷を軽減できる。さらに、たとえばＳ１２０の処理において、複数の車両ＶＣ１，ＶＣ２からのデータを受信してＳ４２の処理を行うなら、学習に用いるデータ数を容易に大きくすることができる。

＜対応関係＞
上記実施形態における事項と、上記「課題を解決するための手段」の欄に記載した事項との対応関係は、次の通りである。以下では、「課題を解決するための手段」の欄に記載した解決手段の番号毎に、対応関係を示している。［１，２］実行装置と記憶装置とは、図７においては、それぞれ、ＣＰＵ７２およびＲＯＭ７４と記憶装置７６とに対応し、図３においては、それぞれＣＰＵ１１２およびＲＯＭ１１４と記憶装置１１６とに対応し、図９においては、ＣＰＵ７２，１３２およびＲＯＭ７４，１３４と記憶装置７６，１３６とに対応する。取得処理は、図４のＳ３０，Ｓ３２，Ｓ３８の処理や、図８および図１０のＳ１０，Ｓ１２，Ｓ１００，Ｓ１０２，Ｓ３２ａ，Ｓ３８の処理に対応する。操作処理は、Ｓ３６の処理に対応し、報酬算出処理は、Ｓ５２～Ｓ６４の処理に対応し、更新処理は、Ｓ６６～Ｓ７２の処理に対応する。更新写像は、学習プログラム７４ｂのうちＳ６６～Ｓ７２の処理を実行する指令によって規定された写像に対応する。変更処理は、Ｓ５４の処理において係数Ｋを道路変数ＶＲに応じて可変とすることや、Ｓ５６の処理において条件（ア）および条件（イ）を道路変数ＶＲに応じて可変とすること、Ｓ６２の処理において閾値ＰＡｔｈを道路変数ＶＲに応じて可変とすることに対応する。［３］制御用写像データは、マップデータＤＭに対応する。［４］実行装置と記憶装置とは、それぞれ、図７におけるＣＰＵ７２およびＲＯＭ７４と記憶装置７６とに対応する。［５～７］第１実行装置は、ＣＰＵ７２およびＲＯＭ７４に対応し、第２実行装置は、ＣＰＵ１３２およびＲＯＭ１３４に対応する。

＜その他の実施形態＞
なお、本実施形態は、以下のように変更して実施することができる。本実施形態および以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。

「道路変数について」
・車両の走行する道路に関する情報を示す道路変数としては、合流部であるか否かを示す変数に限らない。たとえば、一般道か高速道かを示す変数であってもよい。またたとえば、道路勾配に関する情報や道路の曲率に関する情報を示す変数であってもよい。

「変更処理について」
・Ｓ５６の処理では、条件（ア）および条件（イ）を合流部か否かに応じて可変としたが、これに限らない。たとえば、合流部か否かに応じてＳ５８，Ｓ６０の処理における係数Ｋ１を可変としてもよい。すなわち、たとえば合流部でない場合に係数Ｋ１を小さくするなら、条件（ア）および条件（イ）を満たすことがトータルの報酬を大きくする上でさほど有利にならないことから、効率ηｅを高める学習がなされやすくなる。

・Ｓ６２の処理では、閾値ＰＡｔｈを合流部か否かに応じて可変としたが、これに限らない。たとえば、合流部か否かに応じてＳ６４の処理における係数Ｋ２を可変としてもよい。すなわち、たとえば合流部でない場合に係数Ｋ２を小さくするなら、Ｓ６２の処理において否定判定されることがトータルの報酬を大きくする上でさほど有利にならないことから、効率ηｅを高める学習がなされやすくなる。

・Ｓ５６，Ｓ６２の処理のようにアクセルレスポンスに対する基準を変更する処理と、上記変更例のようにアクセルレスポンスの基準を満たすか否かに応じた報酬を変更する処理とのいずれか一方のみを実行するものに限らず、たとえば双方を実行してもよい。

・上記構成では、合流部において、係数Ｋを小さくして且つ、条件（ア）～条件（ウ）を厳しくしたが、これに限らない。たとえば、係数Ｋを小さくするのみであってもよい。これによっても、効率ηｅを高くすることが大きい報酬をうるうえで得策ではなくなることから、アクセルレスポンスを高める行動がグリーディ行動となりやすい。

・たとえば、合流部ではない場合において条件（ア）および条件（イ）を満たし得ない条件に変更するとともにＳ６０の処理において報酬ｒに対してゼロを加算する処理とし、合流部においては、Ｓ５４の処理における基準効率ηｅｒをとりえない高効率として且つ、積算値とゼロとのうちの大きい方を報酬ｒに代入してもよい。これは、合流部ではない場合においては、アクセルレスポンスが基準を満たす場合に満たさない場合よりも大きい報酬を与える処理を実行せず、合流部においてはエネルギ利用効率が基準を満たす場合に満たさない場合よりも大きい報酬を与える処理を実行しないことと等価である。そのため、合流部ではない場合に、アクセルレスポンスが基準を満たす場合に満たさない場合よりも大きい報酬を与える処理を実行せず、合流部ではエネルギ利用効率が基準を満たす場合に満たさない場合よりも大きい報酬を与える処理を実行しない処理としてもよい。これについても、アクセルレスポンスが基準を満たす場合に満たさない場合よりも大きい報酬を与える処理と、エネルギ利用効率が基準を満たす場合に満たさない場合よりも大きい報酬を与える処理との少なくとも１つの処理を変更する処理とみなせる。

・「道路変数について」の欄に記載したように、道路変数が一般道か高速道かを識別する変数の場合、高速道の場合にアクセルレスポンスに対する要求事項を優先する報酬とし、一般道である場合にエネルギ利用効率に対する要求事項を優先する報酬とする報酬体系としてもよい。こうして学習された関係規定データＤＲによれば、高速道での追い越し等をスムーズに行うことができ、一般道ではエネルギ利用効率を高めることができる。

・「道路変数について」の欄に記載したように、道路変数が道路勾配に関する情報を示す変数の場合、坂道においてはアクセルレスポンスに対する要求事項を優先する報酬とし、坂道ではない場合にエネルギ利用効率に対する要求事項を優先する報酬とする報酬体系としてもよい。こうして学習された関係規定データＤＲによれば、坂道においてユーザが要求するトルクを迅速に実現できる一方、坂道以外ではエネルギ利用効率を高めることができる。

・道路変数に応じて所定の報酬を与えるときの基準を変更する変更処理としては、所定の報酬を与えるうえで、複数の要求事項のうちいずれを満たす方が有利となるかを変更する処理に限らない。たとえば、「道路変数について」の欄に記載したように、道路変数が道路勾配に関する情報を示す変数の場合、坂道においてはそれ以外と比較してトルク指令値Ｔｒｑ＊を大きい値としてもよい。こうして学習された関係規定データＤＲによれば、坂道においても平たんな道と同等なアクセル操作によって同等の加速感をうる制御が可能となる。

「エネルギ利用効率について」
・上記実施形態では、エネルギ利用効率を、動作点のみに基づき定量化したが、これに限らない。たとえば、下記「行動変数について」の欄に記載したように、行動変数に点火時期を含める場合、採用された点火時期がＭＢＴからずれる場合、そのずれ量に応じてエネルギ利用効率を減少補正すればよい。また、行動変数に空燃比制御に関する変数を含める場合、採用される空燃比が所定の空燃比からずれる場合、そのずれ量に応じてエネルギ利用効率を補正すればよい。

「テーブル形式のデータの次元削減について」
・テーブル形式のデータの次元削減手法としては、上記実施形態において例示したものに限らない。たとえばアクセル操作量ＰＡが最大値となることはまれであることから、アクセル操作量ＰＡが規定量以上となる状態については行動価値関数Ｑを定義せず、アクセル操作量ＰＡが規定量以上となる場合のスロットル開口度指令値ＴＡ＊等は、別途適合してもよい。またたとえば、行動のとりうる値からスロットル開口度指令値ＴＡ＊が規定値以上となるものを除くなどして、次元削減をしてもよい。

「関係規定データについて」
・上記実施形態では、行動価値関数Ｑを、テーブル形式の関数としたが、これに限らない。たとえば、関数近似器を用いてもよい。

・たとえば、行動価値関数Ｑを用いる代わりに、方策πを、状態ｓおよび行動ａを独立変数とし、行動ａをとる確率を従属変数とする関数近似器にて表現し、関数近似器を定めるパラメータを、報酬ｒに応じて更新してもよい。なお、その場合、道路変数ＶＲの値に応じた各別の関数近似器を備えてもよく、またたとえば、単一の関数近似器の独立変数である状態ｓに道路変数ＶＲを含めてもよい。

「操作処理について」
・たとえば「関係規定データについて」の欄に記載したように、行動価値関数を関数近似器とする場合、上記実施形態におけるテーブル型式の関数の独立変数となる行動についての離散的な値の組の全てについて、状態ｓとともに行動価値関数Ｑに入力することによって、行動価値関数Ｑを最大化する行動ａを特定すればよい。その場合、たとえば、主として特定された行動ａを操作に採用しつつも、所定の確率でそれ以外の行動を選択すればよい。

・たとえば「関係規定データについて」の欄に記載したように、方策πを、状態ｓおよび行動ａを独立変数とし、行動ａをとる確率を従属変数とする関数近似器とする場合、方策πによって示される確率に基づき行動ａを選択すればよい。

「更新写像について」
・Ｓ６６～Ｓ７２の処理においては、εソフト方策オン型モンテカルロ法によるものを例示したが、これに限らない。たとえば、方策オフ型モンテカルロ法によるものであってもよい。もっとも、モンテカルロ法にも限らず、たとえば、方策オフ型ＴＤ法を用いたり、またたとえばＳＡＲＳＡ法のように方策オン型ＴＤ法を用いたり、またたとえば、方策オン型の学習として適格度トレース法を用いたりしてもよい。

・たとえば「関係規定データについて」の欄に記載したように、方策πを関数近似器を用いて表現し、これを報酬ｒに基づき直接更新する場合には、方策勾配法等を用いて更新写像を構成すればよい。

・行動価値関数Ｑと方策πとのうちのいずれか一方のみを、報酬ｒによる直接の更新対象とするものに限らない。たとえば、アクター・クリティック法のように、行動価値関数Ｑおよび方策πをそれぞれ更新してもよい。また、アクター・クリティック法においては、これに限らず、たとえば行動価値関数Ｑに代えて価値関数Ｖを更新対象としてもよい。

「行動変数について」
・上記実施形態では、行動変数としてのスロットルバルブの開口度に関する変数として、スロットル開口度指令値ＴＡ＊を例示したが、これに限らない。たとえば、アクセル操作量ＰＡに対するスロットル開口度指令値ＴＡ＊の応答性を、無駄時間および２次遅れフィルタにて表現し、無駄時間と、２次遅れフィルタを規定する２つの変数との合計３つの変数を、スロットルバルブの開口度に関する変数としてもよい。ただし、その場合、状態変数は、アクセル操作量ＰＡの時系列データに代えて、アクセル操作量ＰＡの単位時間当たりの変化量とすることが望ましい。

・上記実施形態では、行動変数として、スロットルバルブの開口度に関する変数および変速比に関する変数を例示したが、これに限らない。たとえば、スロットルバルブの開口度に関する変数および変速比に関する変数に加えて、点火時期に関する変数や空燃比制御に関する変数を用いてもよい。

・「内燃機関について」の欄に記載したように、圧縮着火式の内燃機関の場合、スロットルバルブの開口度に関する変数に代えて噴射量に関する変数を用いればよい。またこれに加えて、たとえば、噴射時期に関する変数や、１燃焼サイクルにおける噴射回数に関する変数、１燃焼サイクルにおける１つの気筒のための時系列的に隣接した２つの燃料噴射のうちの一方の終了タイミングと他方の開始タイミングとの間の時間間隔に関する変数を用いてもよい。

・たとえば変速装置５０が有段変速装置の場合、クラッチの係合状態を油圧によって調整するためのソレノイドバルブの電流値等を行動変数としてもよい。
・下記「電子機器について」の欄に記載したように、行動変数に応じた操作の対象に回転電機が含まれる場合、行動変数に回転電機のトルクや電流を含めればよい。すなわち、推力生成装置の負荷に関する変数である負荷変数としては、スロットルバルブの開口度に関する変数や噴射量に限らず、回転電機のトルクや電流であってもよい。

・下記「電子機器について」の欄に記載したように、行動変数に応じた操作の対象に、ロックアップクラッチ４２を含める場合、行動変数にロックアップクラッチ４２の係合状態を示す変数を含めればよい。

「状態について」
・上記実施形態では、アクセル操作量ＰＡの時系列データを、等間隔でサンプリングされた６個の値からなるデータとしたが、これに限らない。互いに異なるサンプリングタイミングにおける２個以上のサンプリング値からなるデータであればよく、この際、３個以上のサンプリング値からなるデータや、サンプリング間隔が等間隔であるデータであることがより望ましい。

・アクセル操作量に関する状態変数としては、アクセル操作量ＰＡの時系列データに限らず、たとえば「行動変数について」の欄に記載したように、アクセル操作量ＰＡの単位時間当たりの変化量等であってもよい。

・たとえば「行動変数について」の欄に記載したように、ソレノイドバルブの電流値を行動変数とする場合、状態に、変速装置の入力軸５２の回転速度や出力軸５４の回転速度、ソレノイドバルブによって調整される油圧を含めればよい。またたとえば「行動変数について」の欄に記載したように、回転電機のトルクや出力を行動変数とする場合、状態に、バッテリの充電率や温度を含めればよい。またたとえば「行動変数について」の欄に記載したように、コンプレッサの負荷トルクや空調装置の消費電力を行動に含める場合、状態に、車室内の温度を含めればよい。

「報酬算出処理について」
・エネルギ利用効率が高い場合に低い場合よりも大きい報酬を与える処理としては、基準となる効率と実際の動作点における効率との比と「１」との差をとる処理に限らず、たとえば、基準となる効率と実際の動作点における効率との差をとる処理であってもよい。

・アクセルレスポンスに関する基準を満たす場合に満たさない場合よりも大きい報酬を与える処理としては、条件（ア）および条件（イ）の論理積が真であるか否かに応じて報酬を与える処理や、条件（ウ）を満たす場合に小さい報酬を与える処理に限らない。たとえば、条件（ア）および条件（イ）の論理積が真であるか否かに応じて報酬を与える処理と、条件（ウ）を満たす場合に小さい報酬を与える処理とに関しては、条件（ア）および条件（イ）の論理積が真であるか否かに応じて報酬を与える処理等、いずれか一方のみを含めてもよい。また、条件（ア）および条件（イ）の論理積が真であるか否かに応じて報酬を与える処理に代えて、条件（ア）を満たすか否かに応じて報酬を与える処理と、条件（イ）を満たすか否かに応じて報酬を与える処理と、を実行してもよい。

・たとえば条件（ア）を満たす場合に一律同じ報酬を与える代わりに、トルクＴｒｑとトルク指令値Ｔｒｑ＊との差の絶対値が小さい場合に大きい場合よりもより大きい報酬を与える処理としてもよい。またたとえば、条件（ア）を満たさない場合に一律同じ報酬を与える代わりに、トルクＴｒｑとトルク指令値Ｔｒｑ＊との差の絶対値が大きい場合に小さい場合よりもより小さい報酬を与える処理としてもよい。

・たとえば条件（イ）を満たす場合に一律同じ報酬を与える代わりに、加速度Ｇｘの大きさに応じて報酬の大きさを可変とする処理としてもよい。またたとえば、条件（イ）を満たさない場合に一律同じ報酬を与える代わりに、加速度Ｇｘの大きさに応じて報酬の大きさを可変とする処理としてもよい。

・アクセルレスポンスに関する基準を満たす場合に満たさない場合よりも大きい報酬を与える処理とエネルギ利用効率が基準を満たす場合に満たさない場合よりも大きい報酬を与える処理とによって報酬算出処理を構成するものに限らない。たとえば、アクセルレスポンスに関する基準を満たす場合に満たさない場合よりも大きい報酬を与える処理と、車室内の状態が基準を満たす場合に満たさない場合よりも大きい報酬を与える処理とによって報酬算出処理を構成してもよい。ここで、車室内の状態が基準を満たす場合に満たさない場合よりも大きい報酬を与える処理としては、たとえば、車両の振動の強度が所定値以下の場合に所定値を超える場合よりも大きい報酬を与える等、車両の振動の強度が小さい場合に大きい場合よりも大きい報酬を与える処理であってもよい。またたとえば、車両の騒音の強度が所定値以下の場合に所定値を超える場合よりも大きい報酬を与える等、車両の騒音の強度が小さい場合に大きい場合よりも大きい報酬を与える処理であってもよい。

・たとえば、アクセルレスポンスに関する基準を満たす場合に満たさない場合よりも大きい報酬を与える処理と排気特性が基準を満たす場合に満たさない場合よりも大きい報酬を与える処理とであってもよい。またたとえば、エネルギ利用効率が基準を満たす場合に満たさない場合よりも大きい報酬を与える処理と、排気特性が基準を満たす場合に満たさない場合よりも大きい報酬を与える処理とであってもよい。またたとえば、アクセルレスポンスに関する基準を満たす場合に満たさない場合よりも大きい報酬を与える処理と、エネルギ利用効率が基準を満たす場合に満たさない場合よりも大きい報酬を与える処理と、排気特性が基準を満たす場合に満たさない場合よりも大きい報酬を与える処理との３つの処理を含んでもよい。要は、互いに背反となりうる複数の基準に基づき報酬を与える場合、報酬の与え方を道路変数に応じて変更することによって、走行している道路においてより適切な関係規定データを学習できる。

・たとえば「行動変数について」の欄に記載したように、変速装置５０のソレノイドバルブの電流値を行動変数とする場合、たとえば報酬算出処理に以下の（ａ）～（ｃ）の３つの処理のうちの少なくとも１つの処理を含めればよい。

（ａ）変速装置による変速比の切り替えに要する時間が所定時間以内である場合に所定時間を超える場合よりも大きい報酬を与える処理である。
（ｂ）変速装置の入力軸５２の回転速度の変化速度の絶対値が入力側所定値以下である場合に入力側所定値を超える場合よりも大きい報酬を与える処理である。

（ｃ）変速装置の出力軸５４の回転速度の変化速度の絶対値が出力側所定値以下である場合に出力側所定値を超える場合よりも大きい報酬を与える処理である。
なお、上記（ａ）は、アクセルレスポンスが高い場合に低い場合よりも大きい報酬を与える処理に相当する。上記（ｂ），（ｃ）は、振動が小さい場合に大きい場合よりも大きい報酬を与える処理に相当する。換言すれば、車室内の状態が基準を満たす場合に満たさない場合よりも大きい報酬を与える処理に相当する。

・たとえば「行動変数について」の欄に記載したように、回転電機のトルクや出力を行動変数とする場合、バッテリの充電率が所定範囲内にある場合にない場合よりも大きい報酬を与える処理や、バッテリの温度が所定範囲内にある場合にない場合よりも大きい報酬を与える処理を含めてもよい。また、たとえば「行動変数について」の欄に記載したように、コンプレッサの負荷トルクや空調装置の消費電力を行動変数に含める場合、車室内の温度が所定範囲内にある場合にない場合よりも大きい報酬を与える処理を加えてもよい。この処理は、車室内の状態が基準を満たす場合に満たさない場合よりも大きい報酬を与える処理となる。

「車両用制御データの生成方法について」
・図４のＳ３４の処理では、行動価値関数Ｑに基づき行動を決定したが、これに限らず、とりうるすべての行動を等確率で選択してもよい。

「制御用写像データについて」
・車両の状態と期待収益を最大化する行動変数の値とを１対１に対応付けることによって車両の状態を入力とし期待収益を最大化する行動変数の値を出力する制御用写像データとしては、マップデータに限らない。たとえば、関数近似器であってもよい。これは、たとえば、上記「更新写像について」の欄に記載したように、方策勾配法等を用いる場合において、方策πを行動変数の値をとりうる確率を示すガウス分布にて表現し、その平均値を関数近似器にて表現しておき、平均値を表現する関数近似器のパラメータを更新することとし、学習後の平均値を制御用写像データとすることによって実現できる。すなわち、ここでは、関数近似器が出力する平均値を期待収益を最大化する行動変数の値とみなす。この際、道路変数ＶＲの値毎に各別の関数近似器を設けてもよいが、単一の関数近似器の独立変数のうちの状態ｓに、道路変数ＶＲを含めてもよい。

「電子機器について」
・行動変数に応じた操作の対象となる内燃機関の操作部としては、スロットルバルブ１４に限らない。たとえば、点火装置２６や燃料噴射弁１６であってもよい。

・行動変数に応じた操作の対象となる電子機器のうち、推力生成装置と駆動輪との間の駆動系装置としては、変速装置５０に限らず、たとえばロックアップクラッチ４２であってもよい。

・下記「推力生成装置について」の欄に記載したように、推力生成装置として回転電機を備える場合、行動変数に応じた操作の対象となる電子機器を、回転電機に接続されるインバータ等の電力変換回路としてもよい。もっとも、車載駆動系の電子機器に限らず、たとえば車載空調装置等であってもよい。この場合であっても、たとえば車載空調装置が推力生成装置の回転動力によって駆動される場合、推力生成装置の動力のうち駆動輪６０に供給される動力が車載空調装置の負荷トルクに依存することから、車載空調装置の負荷トルクを行動変数に含めることなどが有効である。またたとえば車載空調装置が推力生成装置の回転動力を利用しないものであったとしても、エネルギ利用効率に影響することから、行動変数に車載空調装置の消費電力を加えることは有効である。

「車両用制御システムについて」
・図１０に示した例では、Ｓ４２の処理の全てをデータ解析センター１３０にて実行したが、これに限らない。たとえば、データ解析センター１３０においては、Ｓ６６～Ｓ７２の処理を実行するものの、報酬の算出処理であるＳ５２～Ｓ６４の処理については実行せず、Ｓ１１０の処理において、報酬の算出結果を送信することとしてもよい。

・図１０に示した例では、方策πに基づく行動を決定する処理（Ｓ３４の処理）を、車両側で実行したが、これに限らない。たとえば、車両ＶＣ１からＳ３２ａの処理によって取得したデータを送信することとし、データ解析センター１３０にて送信されてデータを用いて行動ａを決定し、決定した行動を車両ＶＣ１に送信してもよい。

・車両用制御システムとしては、制御装置７０およびデータ解析センター１３０によって構成されるものに限らない。たとえば、データ解析センター１３０に代えて、ユーザの携帯端末を用いてもよい。また、制御装置７０およびデータ解析センター１３０と携帯端末とによって車両用制御システムを構成してもよい。これは、たとえばＳ３４の処理を携帯端末によって実行することにより実現できる。

「実行装置について」
・実行装置としては、ＣＰＵ７２（１１２，１３２）とＲＯＭ７４（１１４，１３４）とを備えて、ソフトウェア処理を実行するものに限らない。たとえば、上記実施形態においてソフトウェア処理されたものの少なくとも一部を、ハードウェア処理するたとえばＡＳＩＣ等の専用のハードウェア回路を備えてもよい。すなわち、実行装置は、以下の（ａ）～（ｃ）のいずれかの構成であればよい。（ａ）上記処理の全てを、プログラムに従って実行する処理装置と、プログラムを記憶するＲＯＭ等のプログラム格納装置とを備える。（ｂ）上記処理の一部をプログラムに従って実行する処理装置およびプログラム格納装置と、残りの処理を実行する専用のハードウェア回路とを備える。（ｃ）上記処理の全てを実行する専用のハードウェア回路を備える。ここで、処理装置およびプログラム格納装置を備えたソフトウェア実行装置や、専用のハードウェア回路は複数であってもよい。

「記憶装置について」
・上記実施形態では、関係規定データＤＲが記憶される記憶装置と、学習プログラム７４ｂ，１１４ａや制御プログラム７４ａが記憶される記憶装置（ＲＯＭ７４，１１４，１３４）とを別の記憶装置としたが、これに限らない。

「内燃機関について」
・内燃機関としては、火花点火式内燃機関に限らず、たとえば燃料として軽油などを用いる圧縮着火式内燃機関等であってもよい。

「推力生成装置について」
・車両に搭載される推力生成装置としては、内燃機関のみに限らず、たとえばハイブリッド車のように、内燃機関と回転電機とであってもよい。またたとえば、電気自動車や燃料電池車のように、推力生成装置が回転電機のみであってもよい。

１０…内燃機関
１２…吸気通路
１４…スロットルバルブ
１６…燃料噴射弁
１８…吸気バルブ
２０…シリンダ
２２…ピストン
２４…燃焼室
２６…点火装置
２８…クランク軸
４０…トルクコンバータ
５０…変速装置
７０…制御装置
１１０…生成装置
１３０…データ解析センター

Claims

車両の状態と前記車両内の電子機器の操作に関する変数である行動変数との関係を規定する関係規定データが記憶装置に記憶された状態で、
センサの検出値に基づく前記車両の状態、および前記車両の走行する道路を特定する変数である道路変数を取得する取得処理と、
前記電子機器を操作する操作処理と、
前記取得処理によって取得された前記車両の状態に基づき、前記車両の特性が基準を満たす場合に満たさない場合よりも大きい報酬を与える報酬算出処理と、
前記取得処理によって取得された前記車両の状態、前記電子機器の操作に用いられた前記行動変数の値、および該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、
を実行装置に実行させ、
前記更新写像は、前記関係規定データに従って前記電子機器が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものであり、
前記報酬算出処理は、前記道路変数の値が第１の値である場合に前記車両の特性が所定の特性であるときに与える前記報酬に対して前記道路変数の値が第２の値である場合に前記車両の特性が前記所定の特性であるときに与える報酬を変更する変更処理を含む車両用制御データの生成方法。
前記道路変数は、一般道から高速道へと合流する合流部である旨、および一般道である旨を識別する変数であり、
前記報酬算出処理は、アクセルレスポンスに関する基準を満たす場合に満たさない場合よりも大きい報酬を与える処理と、エネルギ利用効率が高い場合に低い場合よりも大きい報酬を与える処理との２つの処理を含み、
前記変更処理は、前記一般道と比較して前記合流部において、前記アクセルレスポンスを高める方がより大きい報酬をうるうえで有利となるように前記２つの処理のうちの少なくとも１つの処理を変更する処理を含む請求項１記載の車両用制御データの生成方法。
前記更新処理によって更新された前記関係規定データに基づき、前記車両の状態と前記期待収益を最大化する前記行動変数の値とを対応付けることによって前記車両の状態を入力とし前記期待収益を最大化する前記行動変数の値を出力する制御用写像データを生成する処理を前記実行装置に実行させる請求項１または２記載の車両用制御データの生成方法。
請求項１または２記載の前記記憶装置および前記実行装置を備え、
前記操作処理は、前記関係規定データに基づき前記車両の状態に応じた行動変数の値に従って前記電子機器を操作する処理を含む車両用制御装置。
請求項４記載の前記実行装置および前記記憶装置を備え、
前記実行装置は、前記車両に搭載される第１実行装置と、車載装置とは別の第２実行装置と、を含み、
前記第１実行装置は、少なくとも前記取得処理および前記操作処理を実行し、
前記第２実行装置は、少なくとも前記更新処理を実行する車両用制御システム。
請求項５記載の第１実行装置を備える車両用制御装置。
請求項５記載の第２実行装置を備える車両用学習装置。