JP2022007027A

JP2022007027A - 車両用制御装置、車両用制御システム、および車両用学習装置

Info

Publication number: JP2022007027A
Application number: JP2020109675A
Authority: JP
Inventors: 英明樗澤; Hideaki Tozawa; 淳田端; Atsushi Tabata; 弘一奥田; Koichi Okuda; 健今村; Takeshi Imamura; 広太藤井; Kota Fujii; 啓太佐々木; Keita Sasaki
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-06-25
Filing date: 2020-06-25
Publication date: 2022-01-13
Also published as: US20210403014A1; US11420644B2; CN114103916A; DE102021115778A1

Abstract

【課題】強化学習による学習結果が、通常時において駆動系装置を操作するうえで適切な値から大きくずれることを抑制できるようにした車両用制御装置を提供する。
【解決手段】関係規定データＤＲには、アクセル操作量ＡＣＣＰや油温Ｔｏｉｌ、第２モータジェネレータ２４の回転軸２４ａの回転速度Ｎｍ２等を状態とし、変速装置２６の作動油の油圧指令値を行動とする行動価値関数が含まれる。ＣＰＵ４２は、状態に基づき行動を決定してソレノイドバルブ２８ａを操作し、変速時間等に基づき報酬を算出し、報酬に基づき関係規定データＤＲを更新する。ＣＰＵ４２は、変速装置２６に異常が生じる場合、関係規定データＤＲの更新を制限する。
【選択図】図１

Description

本発明は、車両用制御装置、車両用制御システム、および車両用学習装置に関する。

たとえば下記特許文献１には、車両の状態に応じた適切な変速比を強化学習によって定めることが記載されている。

特開２０００－２５０６０２号公報

ところで、上記の変速比を調整する変速装置の駆動に制約がある場合に、強化学習を繰り返すと、学習結果が、変速装置の駆動に制約がない場合における適切な値から大きくずれるおそれがある。こうした事情は、変速装置に限らず、駆動系装置において一般に生じうる。

以下、上記課題を解決するための手段およびその作用効果について記載する。
１．実行装置および記憶装置を備え、前記記憶装置には、車両の状態と前記車両に搭載されている駆動系装置の操作に関する変数である行動変数との関係を規定するためのデータである関係規定データが記憶されており、前記実行装置は、センサの検出値に基づく前記状態を取得する取得処理と、前記取得処理によって取得された前記状態と前記関係規定データとによって定まる前記行動変数の値に基づき前記駆動系装置を操作する操作処理と、前記取得処理によって取得された前記状態に基づく前記駆動系装置の状態が所定の基準を満たす場合に満たさない場合よりも大きい報酬を与える報酬算出処理と、前記取得処理によって取得された前記状態、前記駆動系装置の操作に用いられた前記行動変数の値、および該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、通常時と比較して前記駆動系装置の駆動に制約がある場合、前記更新処理による前記関係規定データの更新量が小さくなる側に前記更新処理の実行を制限する制限処理と、を実行し、前記更新写像は、前記関係規定データに従って前記駆動系装置が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものである車両用制御装置である。

上記構成では、駆動系装置の駆動に制約がある場合に、更新量が小さくなる側に更新処理の実行が制限される。そのため、駆動系装置の駆動に制約がある場合に関係規定データが更新されることによって大きく変化することを抑制できる。したがって、上記構成では、強化学習による学習結果が、通常時において駆動系装置を操作するうえで適切な値から大きくずれることを抑制できる。

２．前記実行装置は、前記駆動系装置の異常の有無を判定する異常判定処理を実行し、前記制限処理は、前記異常判定処理によって異常があると判定される場合に通常時と比較して前記駆動系装置の駆動に制約がある場合であるとして、前記更新処理の実行を制限する処理を含む上記１記載の車両用制御装置である。

駆動系装置に異常がある場合に強化学習がなされると、強化学習による学習結果が、駆動系装置の正常時における適切な値から大きくずれるおそれがある。そこで上記構成では、異常があると判定されている場合に更新処理の実行を制限することにより、強化学習による学習結果が、通常時において駆動系装置を操作するうえで適切な値から大きくずれることを抑制できる。

３．前記駆動系装置は、変速装置を含み、前記制限処理は、前記変速装置の作動油の温度が高温側閾値以上である場合に通常時と比較して前記駆動系装置の駆動に制約がある場合であるとして、前記更新量を制限する処理を含む上記１または２記載の車両用制御装置である。

作動油の温度が過度に高い場合に強化学習を実行すると、強化学習による学習結果が、通常時の温度領域において駆動系装置を操作するうえで適切な値から大きくずれるおそれがある。そこで上記構成では、作動油の温度が高温側閾値以上である場合に更新処理の実行を制限することにより、強化学習による学習結果が、作動油の温度が通常時の温度領域において適切な値から大きくずれることを抑制できる。

４．前記駆動系装置は、変速装置を含み、前記制限処理は、前記変速装置の作動油の温度が低温側閾値以下である場合に通常時と比較して前記駆動系装置の駆動に制約がある場合であるとして、前記更新量を制限する処理を含む上記１～３のいずれか１つに記載の車両用制御装置である。

作動油の温度が過度に低い場合に強化学習を実行すると、強化学習による学習結果が、通常時の温度領域において駆動系装置を操作するうえで適切な値から大きくずれるおそれがある。そこで上記構成では、作動油の温度が低温側閾値以下である場合に更新処理の実行を制限することにより、強化学習による学習結果が、作動油の温度が通常時の温度領域において適切な値から大きくずれることを抑制できる。

５．前記制限処理は、前記更新量をゼロとする処理である上記１～４のいずれか１つに記載の車両用制御装置である。
上記構成では、制限処理によって更新量をゼロとすることにより、更新量を小さくしつつもゼロとしない場合と比較して、関係規定データが通常時において適切なデータからずれることを十分に抑制できる。

６．上記１～５のいずれか１つに記載の前記実行装置および前記記憶装置を備え、前記実行装置は、前記車両に搭載される第１実行装置と、車載装置とは別の第２実行装置と、を含み、前記第１実行装置は、少なくとも前記取得処理および前記操作処理を実行し、前記第２実行装置は、少なくとも前記更新処理を実行する車両用制御システムである。

上記構成によれば、第２実行装置が更新処理を実行することから、第１実行装置が更新処理を実行する場合と比較して、第１実行装置の演算負荷を軽減できる。
なお、第２実行装置が車載装置とは別の装置であることは、第２実行装置が車載装置ではないことを意味する。

７．上記６記載の車両用制御システムにおける第１実行装置を備える車両用制御装置である。
８．上記６記載の車両用制御システムにおける第２実行装置を備える車両用学習装置である。

第１の実施形態にかかる制御装置および駆動系を示す図。同実施形態にかかる制御装置が実行する処理の手順を示す流れ図。同実施形態にかかる制御装置が実行する処理の一部の詳細な手順を示す流れ図。同実施形態にかかる制御装置が実行する処理の手順を示す流れ図。第２の実施形態にかかる制御装置が実行する処理の手順を示す流れ図。同実施形態にかかる制御装置が実行する処理の一部の詳細な手順を示す流れ図。第３の実施形態にかかる制御システムの構成を示す図。（ａ）および（ｂ）は、制御システムが実行する処理の手順を示す流れ図。

＜第１の実施形態＞
以下、第１の実施形態について図面を参照しつつ説明する。
図１に示すように、内燃機関１０のクランク軸１２には、動力分割装置２０が機械的に連結されている。動力分割装置２０は、内燃機関１０、第１モータジェネレータ２２、および第２モータジェネレータ２４の動力を分割する。動力分割装置２０は、遊星歯車機構を備えており、遊星歯車機構のキャリアＣにクランク軸１２が機械的に連結されており、サンギアＳに、第１モータジェネレータ２２の回転軸２２ａが機械的に連結されており、リングギアＲに、第２モータジェネレータ２４の回転軸２４ａが機械的に連結されている。なお、第１モータジェネレータ２２の端子には、第１インバータ２３の出力電圧が印加される。また、第２モータジェネレータ２４の端子には、第２インバータ２５の出力電圧が印加される。

動力分割装置２０のリングギアＲには、第２モータジェネレータ２４の回転軸２４ａに加えて、さらに、変速装置２６を介して駆動輪３０が機械的に連結されている。
また、キャリアＣには、オイルポンプ３２の従動軸３２ａが機械的に連結されている。オイルポンプ３２は、オイルパン３４内のオイルを吸入して作動油として変速装置２６に吐出するポンプである。なお、オイルポンプ３２から吐出された作動油は、変速装置２６内の油圧制御回路２８によってその圧力が調整されて作動油として利用される。油圧制御回路２８は、複数のソレノイドバルブ２８ａを備えており、それら各ソレノイドバルブ２８ａの通電によって、作動油の流動状態や作動油の油圧を制御する回路である。

制御装置４０は、内燃機関１０を制御対象とし、その制御量であるトルクや排気成分比率等を制御すべく、内燃機関１０の各種操作部を操作する。また、制御装置４０は、第１モータジェネレータ２２を制御対象とし、その制御量であるトルクや回転速度等を制御すべく、第１インバータ２３を操作する。また、制御装置４０は、第２モータジェネレータ２４を制御対象とし、その制御量であるトルクや回転速度等を制御すべく、第２インバータ２５を操作する。

制御装置４０は、上記制御量を制御する際、クランク角センサ５０の出力信号Ｓｃｒや、第１モータジェネレータ２２の回転軸２２ａの回転角を検知する第１回転角センサ５２の出力信号Ｓｍ１、第２モータジェネレータ２４の回転軸２４ａの回転角を検知する第２回転角センサ５４の出力信号Ｓｍ２を参照する。また、制御装置４０は、油温センサ５６によって検出されるオイルの温度である油温Ｔｏｉｌや、車速センサ５８によって検出される車速ＳＰＤ、アクセルセンサ６２によって検出されるアクセルペダル６０の踏み込み量であるアクセル操作量ＡＣＣＰを参照する。

制御装置４０は、ＣＰＵ４２、ＲＯＭ４４、電気的に書き換え可能な不揮発性メモリである記憶装置４６、および周辺回路４８を備えており、それらがローカルネットワーク４９を介して通信可能とされている。ここで、周辺回路４８は、内部の動作を規定するクロック信号を生成する回路や、電源回路、リセット回路等を含む。制御装置４０は、ＲＯＭ４４に記憶されたプログラムをＣＰＵ４２が実行することにより制御量を制御する。

図２に、制御装置４０が実行する処理の手順を示す。図２に示す処理は、ＲＯＭ４４に記憶された学習プログラムＤＬＰをＣＰＵ４２が所定の条件が成立する都度繰り返し実行することにより実現される。なお、以下では、先頭に「Ｓ」が付与された数字によって各処理のステップ番号を表現する。

図２に示す一連の処理において、ＣＰＵ４２は、まず、変速比の切り替えがなされる期間であるか否かを、換言すれば変速期間であるか否かを判定する（Ｓ１０）。ＣＰＵ４２は、変速期間であると判定する場合（Ｓ１０：ＹＥＳ）、状態ｓとしてのアクセル操作量ＡＣＣＰ、変速変数ΔＶｓｆｔ、油温Ｔｏｉｌ、フェーズ変数Ｖｐａｓｅ、および第２モータジェネレータ２４の回転速度Ｎｍ２を取得する（Ｓ１２）。ここで、変速変数ΔＶｓｆｔは、１速から２速への変速なのか、２速から１速への変速なのか等の、変速比の移行前と移行後とを特定する変数である。また、フェーズ変数Ｖｐａｓｅは、変速期間における変速の段階を定める３つのフェーズのいずれであるかを特定する変数である。

すなわち、本実施形態では、変速期間をフェーズ１、フェーズ２、およびフェーズ３に区分している。ここで、フェーズ１は、変速比の切り替え制御の開始時から予め定められた時間が経過するまでの期間である。フェーズ２は、フェーズ１の終了時からトルク相の終了時までの期間である。換言すれば、変速比の切り替えによって締結状態から解放状態に切り替わる摩擦係合要素によるトルク伝達率がゼロとなるまでの期間である。ＣＰＵ４２は、フェーズ２の終点を、変速装置２６の出力軸の回転速度と変速比の切替前の変速比とから定まる入力軸の回転速度に対する実際の入力軸の回転速度のずれに基づき判定する。なお、入力軸回転速度は、回転速度Ｎｍ２とすればよい。またＣＰＵ４２は、出力軸の回転速度を、車速ＳＰＤに応じて算出する。フェーズ３は、フェーズ２の終了時から変速が完了するまでの期間である。

なお、図２の処理の実行される上記所定の条件は、フェーズの開始タイミングである旨の条件とする。
上記回転速度Ｎｍ２は、ＣＰＵ４２により、出力信号Ｓｍ２に基づき算出される。

状態ｓは、図１に示す記憶装置４６に記憶されている関係規定データＤＲによって行動変数との関係が規定される変数の値である。ここで、本実施形態では、行動変数として、変速比の切り替えにかかる摩擦係合要素を駆動する作動油の油圧指令値を例示する。詳しくは、フェーズ１およびフェーズ２については、該当期間で一定の油圧指令値とし、フェーズ３については一定速度で上昇する油圧指令値とする。なお、関係規定データＤＲに実際に含まれるフェーズ３の行動変数は、圧力上昇速度であってよい。

具体的には、関係規定データＤＲは、行動価値関数Ｑを含む。行動価値関数Ｑは、状態ｓおよび行動ａを独立変数とし、それら状態ｓおよび行動ａに対して期待される収益を従属変数とする関数である。本実施形態では、行動価値関数Ｑを、テーブル形式の関数とする。

次にＣＰＵ４２は、制限フラグＦが「０」であるか否かを判定する（Ｓ１４）。制限フラグＦは、「０」である場合に、強化学習を許可する旨を示し、「１」である場合に強化学習を制限する旨を示す。

ＣＰＵ４２は、制限フラグＦが「０」であると判定する場合（Ｓ１４：ＹＥＳ）、関係規定データＤＲによって規定される方策πに基づき、行動変数の値を算出する（Ｓ１６）。本実施形態では、方策として、εグリーディ方策を例示する。すなわち、状態ｓが与えられたときに、独立変数が与えられた状態ｓとなる行動価値関数Ｑのうち最大となる行動変数（以下、グリーディ行動ａｇと称する）を優先的に選択しつつも、所定の確率で、それ以外の行動を選択する規則を定める方策を例示する。具体的には、行動変数がとりうる値の総数を「｜Ａ｜」にて表記する場合、グリーディ行動以外の行動変数の値をとる確率を、それぞれ「ε／｜Ａ｜」とする。

ちなみに、本実施形態では行動価値関数Ｑをテーブル形式のデータとしていることに鑑み、独立変数としての状態ｓは、一定の幅を有するものとする。すなわち、たとえばアクセル操作量ＡＣＣＰについては１０％間隔で行動価値関数Ｑを定義する場合、アクセル操作量ＡＣＣＰが「３％」である場合と、「６％」である場合とは、それのみによって異なる状態ｓとされることはない。

次にＣＰＵ４２は、ソレノイドバルブ２８ａの通電電流Ｉが油圧指令値Ｐ＊に基づき定まる値となるように通電電流Ｉを操作する（Ｓ１８）。そして、ＣＰＵ４２は、吹き量ΔＮｍ２を算出する（Ｓ２０）。吹き量ΔＮｍ２は、変速期間における変速装置２６の入力軸の回転速度の吹き上がり量を定量化したものであり、予め定められた基準となる回転速度Ｎｍ２＊に対する回転速度Ｎｍ２の上回り量として算出される。ここでＣＰＵ４２は、基準となる回転速度Ｎｍ２＊を、アクセル操作量ＡＣＣＰ、車速ＳＰＤおよび変速変数ΔＶｓｆｔに応じて設定する。この処理は、アクセル操作量ＡＣＣＰ、車速ＳＰＤおよび変速変数ΔＶｓｆｔを入力変数とし、基準となる回転速度Ｎｍ２＊を出力変数とするマップデータがＲＯＭ４４に予め記憶された状態でＣＰＵ４２により基準となる回転速度Ｎｍ２＊をマップ演算することにより実現できる。なお、マップデータとは、入力変数の離散的な値と、入力変数の値のそれぞれに対応する出力変数の値と、の組データである。また、マップ演算は、たとえば、入力変数の値がマップデータの入力変数の値のいずれかに一致する場合、対応するマップデータの出力変数の値を演算結果とするのに対し、一致しない場合、マップデータに含まれる複数の出力変数の値の補間によって得られる値を演算結果とする処理とすればよい。

ＣＰＵ４２は、Ｓ２０の処理を、現在のフェーズが完了するまで実行する（Ｓ２２：ＮＯ）。そしてＣＰＵ４２は、現在のフェーズが完了すると判定する場合（Ｓ２２：ＹＥＳ）、Ｓ１６の処理において用いた行動に対する報酬を算出する（Ｓ２４）。

図３に、Ｓ２４の処理の詳細を示す。
図３に示す一連の処理において、ＣＰＵ４２は、まずフェーズ変数Ｖｐａｓｅが「３」であるか否かを判定する（Ｓ４０）。そして、ＣＰＵ４２は、「３」であると判定する場合（Ｓ４０：ＹＥＳ）、変速が完了したことから、変速に要した時間である変速時間Ｔｓｆｔを算出する（Ｓ４２）。そして、ＣＰＵ４２は、変速時間Ｔｓｆｔに応じた報酬ｒ１を算出する（Ｓ４４）。詳しくは、ＣＰＵ４２は、変速時間Ｔｓｆｔが小さい場合に大きい場合よりも報酬ｒ１を大きい値に算出する。

次にＣＰＵ４２は、Ｓ２０の処理によって所定周期で繰り返し算出された吹き量ΔＮｍ２のうちの最大値を吹き量最大値ΔＮｍ２ｍａｘに代入する（Ｓ４６）。次にＣＰＵ４２は、吹き量最大値ΔＮｍ２ｍａｘに応じた報酬ｒ２を算出する（Ｓ４８）。詳しくは、ＣＰＵ４２は、吹き量最大値ΔＮｍ２ｍａｘが小さい場合に大きい場合よりも報酬ｒ２を大きい値に算出する。

そして、ＣＰＵ４２は、Ｓ１６の処理において用いた行動に対する報酬ｒに、報酬ｒ１と報酬ｒ２との和を代入する（Ｓ５０）。
一方、ＣＰＵ４２は、フェーズ変数Ｖｐａｓｅが「１」または「２」であると判定する場合（Ｓ４０：ＮＯ）、報酬ｒに「０」を代入する（Ｓ５２）。

なお、ＣＰＵ４２は、Ｓ５０，Ｓ５２の処理が完了する場合、Ｓ２４の処理を完了する。
図２に戻り、ＣＰＵ４２は、Ｓ１６の処理において用いた行動価値関数Ｑ（ｓ，ａ）を、報酬ｒに基づき更新する（Ｓ２６）。なお、Ｓ１６の処理において用いた行動価値関数Ｑ（ｓ，ａ）とは、Ｓ１２の処理によって取得した状態ｓとＳ１６の処理によって設定された行動ａとを独立変数とする行動価値関数Ｑ（ｓ，ａ）のことである。

本実施形態では、以下の式（ｃ１）にて定義される、方策オフ型のＴＤ法であるいわゆるＱ学習によって行動価値関数Ｑ（ｓ，ａ）を更新する。
Ｑ（ｓ，ａ）
←Ｑ＋α・｛ｒ＋γ・ｍａｘＱ（ｓ＋１，Ａ）－Ｑ（ｓ，ａ）｝ …（ｃ１）
ここで、行動価値関数Ｑ（ｓ，ａ）の更新量「α・｛ｒ＋γ・ｍａｘＱ（ｓ＋１，Ａ）－Ｑ（ｓ，ａ）｝」には、割引率γおよび学習率αを用いている。なお、割引率γは、「０」よりも大きく「１」以下の定数である。また、「ｍａｘＱ（ｓ＋１，ａ）」は、フェーズ完了時の状態変数、すなわち、図２に示す一連の処理の次回のＳ１２の処理によって取得されるべき状態ｓ＋１を独立変数とする行動価値関数Ｑのうちの最大値を意味する。なお、現在のフェーズがフェーズ３でない限り、図２に示す一連の処理の次回のＳ１２の処理によって取得される状態ｓは、Ｓ２６の処理によって用いられる状態ｓ＋１とする。また、現在のフェーズがフェーズ３である場合、図２に示す一連の処理の今回のＳ１２の処理によって取得した状態ｓを状態ｓ＋１とする。

一方、ＣＰＵ４２は、Ｓ１４の処理において制限フラグＦが「１」であると判定する場合（Ｓ１４：ＮＯ）、独立変数が与えられた状態ｓとなる行動価値関数Ｑのうち最大となる行動ａであるグリーディ行動ａｇによって、油圧指令値Ｐ＊を設定する（Ｓ２８）。そして、ＣＰＵ４２は、Ｓ２８の処理によって設定した油圧指令値Ｐ＊とするように、ソレノイドバルブ２８ａの通電電流Ｉを操作する（Ｓ３０）。

なお、ＣＰＵ４２は、Ｓ２６，Ｓ３０の処理が完了する場合や、Ｓ１０の処理において否定判定する場合には、図２に示す一連の処理を一旦終了する。ちなみに、車両ＶＣの出荷時における関係規定データＤＲは、同一仕様の試作車等において図２の処理と同様の処理によって学習がなされたデータとする。すなわち、図２の処理は、車両ＶＣの出荷前に設定された油圧指令値Ｐ＊を、車両ＶＣが実際に道路を走行する際に適切な値に強化学習によって更新するための処理である。

図４に上記制限フラグＦの値の設定に関する処理の手順を示す。図４に示す処理は、ＲＯＭ４４に記憶された学習プログラムＤＬＰをＣＰＵ４２がたとえば所定周期で繰り返し実行することにより実現される。

図４に示す一連の処理において、ＣＰＵ４２は、まず変速期間であって且つグリーディ行動ａｇが選択されている期間であるか否かを判定する（Ｓ６０）。そしてＣＰＵ４２は、Ｓ６０の処理において肯定判定する場合（Ｓ６０：ＹＥＳ）、吹き量ΔＮｍ２が閾値Δｔｈ以上となる状態が所定期間継続したか否かを判定する（Ｓ６２）。この処理は、変速制御に異常が生じているか否かを判定する処理である。すなわち、変速期間においてグリーディ行動が採用されている場合、吹き量ΔＮｍ２はさほど大きくならないはずである。にもかかわらず、吹き量ΔＮｍ２が閾値を超える場合、たとえばソレノイドバルブ２８ａに異物が挟み込まれてソレノイドバルブ２８ａの動作不良が生じたり、作動油の劣化によって作動油中にエアが多量に混入することに起因して摩擦係合要素の制御性が低下したりする異常が生じていると考えられる。

ＣＰＵ４２は、所定期間継続したと判定する場合（Ｓ６２：ＹＥＳ）、制限フラグＦに「１」を代入する（Ｓ６４）。
一方、ＣＰＵ４２は、Ｓ６０の処理において否定判定する場合には、油温Ｔｏｉｌを取得する（Ｓ６６）。そしてＣＰＵ４２は、油温Ｔｏｉｌが高温側閾値ＴＨ以上であることと、油温Ｔｏｉｌが低温側閾値ＴＬ以下であることとの論理和が真であるか否かを判定する（Ｓ６８）。ここで、高温側閾値ＴＨは、変速装置２６の通常の使用状態において油温Ｔｏｉｌがとりうると想定されている温度の最高値よりも高い値に設定されている。また、低温側閾値ＴＬは、変速装置２６の通常の使用状態において油温Ｔｏｉｌがとりうると想定されている温度の最低値よりも低い値に設定されている。この処理は、油温Ｔｏｉｌが、想定されている温度領域から外れているために、想定されている温度領域における粘性から実際の粘性が大きくずれるなどして変速装置２６の駆動に制約が生じうるか否かを判定する処理である。

ＣＰＵ４２は、論理和が真であると判定する場合（Ｓ６８：ＹＥＳ）、Ｓ６４の処理に移行する。これに対し、ＣＰＵ４２は、論理和が偽であると判定する場合（Ｓ６８：ＮＯ）や、Ｓ６２の処理において否定判定する場合には、制限フラグＦに「０」を代入する（Ｓ７０）。

なお、ＣＰＵ４２は、Ｓ６４，Ｓ７０の処理を完了する場合には、図４に示す一連の処理を一旦終了する。
ここで、本実施形態の作用および効果について説明する。

ＣＰＵ４２は、変速期間において、グリーディ行動ａｇを選択してソレノイドバルブ２８ａの通電電流を操作しつつも、所定の確率でグリーディ行動以外の行動を用いてよりよい油圧指令値Ｐ＊を探索する。そして、ＣＰＵ４２は、油圧指令値Ｐ＊を定めるために利用した行動価値関数ＱをＱ学習によって更新する。これにより、車両ＶＣが実際に走行しているときにおいて適切な油圧指令値Ｐ＊を強化学習によって学習できる。

ただし、ＣＰＵ４２は、変速制御に異常が生じたり、油温Ｔｏｉｌが過度に高かったり、油温Ｔｏｉｌが過度に低かったりする場合、強化学習を禁止する。これにより、関係規定データＤＲが示すグリーディ行動ａｇが、通常の変速比の切り替え時において変速装置２６を操作するうえで適切な値から大きくずれた値に更新されることを抑制できる。

＜第２の実施形態＞
以下、第２の実施形態について、第１の実施形態との相違点を中心に図面を参照しつつ説明する。

図５に、制御装置４０が実行する処理の手順を示す。図５に示す処理は、ＲＯＭ４４に記憶されたプログラムをＣＰＵ４２がたとえば所定周期で繰り返し実行することにより実現される。なお、図５において、図２に示した処理に対応する処理については、便宜上同一のステップ番号を付与している。

図５に示す一連の処理において、ＣＰＵ４２は、Ｓ１２の処理を完了する場合、Ｓ１６の処理に移行する。すなわち、本実施形態では、制限フラグＦの値に応じてＳ１６の処理とＳ２８の処理とのいずれに移行するかを選択する処理を実行しない。一方、ＣＰＵ４２は、Ｓ２２の処理において肯定判定する場合、Ｓ２４ａの処理を実行してＳ２６の処理に移行する。

図６に、Ｓ２４ａの処理の詳細を示す。なお、図６において、図３に示した処理に対応する処理については、便宜上同一のステップ番号を付与している。
図６に示す一連の処理において、ＣＰＵ４２は、Ｓ４０の処理において肯定判定する場合、異常判定の履歴を取得する（Ｓ７９）。すなわち、図４のＳ６２の処理において肯定判定された履歴を取得する。そして、ＣＰＵ４２は、Ｓ４２の処理を完了すると、変速時間Ｔｓｆｔに応じた報酬ｒ１を算出する（Ｓ４４ａ）。ここで、ＣＰＵ４２は、異常がある旨判定されている場合には、変速時間Ｔｓｆｔにかかわらず報酬ｒ１を「０」とする。また、ＣＰＵ４２は、油温Ｔｏｉｌが低温側閾値ＴＬ以下である場合には、変速時間Ｔｓｆｔが小さい場合に大きい場合よりも報酬ｒ１を大きい値に算出するものの、低温側閾値ＴＬよりも高く且つ高温側閾値ＴＨ未満である場合と比較して報酬ｒ１の絶対値を小さい値とする。また、ＣＰＵ４２は、油温Ｔｏｉｌが高温側閾値ＴＨ以上である場合には、変速時間Ｔｓｆｔが小さい場合に大きい場合よりも報酬ｒ１を大きい値に算出するものの、低温側閾値ＴＬよりも高く且つ高温側閾値ＴＨ未満である場合と比較して報酬ｒ１の絶対値を小さい値とする。なお、本実施形態では、高温側閾値ＴＨ以上である場合には、低温側閾値ＴＬ以下である場合と比較して、報酬ｒ１の絶対値を大きい値に算出する。

次にＣＰＵ４２は、Ｓ４６の処理を実行し、さらに、吹き量最大値ΔＮｍ２ｍａｘに応じた報酬ｒ２を算出する（Ｓ４８ａ）。ここで、ＣＰＵ４２は、異常がある旨判定されている場合や油温Ｔｏｉｌが低温側閾値ＴＬ以下である場合には、吹き量最大値ΔＮｍ２ｍａｘにかかわらず報酬ｒ２を「０」とする。また、ＣＰＵ４２は、油温Ｔｏｉｌが高温側閾値ＴＨ以上である場合には、吹き量最大値ΔＮｍ２ｍａｘが小さい場合に大きい場合よりも報酬ｒ２を大きい値に算出するものの、低温側閾値ＴＬよりも高く且つ高温側閾値ＴＨ未満である場合と比較して報酬ｒ２の絶対値を小さい値とする。

なお、ＣＰＵ４２は、Ｓ４８ａの処理を完了する場合、Ｓ５０の処理に移行する。
このように本実施形態にかかるＣＰＵ４２は、変速制御に異常が生じている場合には、報酬ｒを「０」とすることにより、関係規定データＤＲの更新を禁止する。また、ＣＰＵ４２は、油温Ｔｏｉｌが低温側閾値ＴＬ以下である場合、吹き量最大値ΔＮｍ２ｍａｘに基づく報酬ｒ２を「０」とすることにより、吹き量最大値ΔＮｍ２ｍａｘに基づく関係規定データＤＲの更新を禁止する。これにより、関係規定データＤＲが示すグリーディ行動ａｇが、通常の変速比の切り替え時において適切な値から大きくずれた値に更新されることを抑制できる。

また、ＣＰＵ４２は、油温Ｔｏｉｌが低温側閾値ＴＬ以下である場合や高温側閾値ＴＨ以上である場合には、変速時間Ｔｓｆｔに応じた報酬を与えつつも、その絶対値を小さくすることにより、関係規定データＤＲの更新量が小さくなるように更新を制限する。また、ＣＰＵ４２は、油温Ｔｏｉｌが高温側閾値ＴＨ以上である場合には、吹き量最大値ΔＮｍ２ｍａｘに応じた報酬を与えつつも、その絶対値を小さくすることにより、関係規定データＤＲの更新量が小さくなるように更新を制限する。これにより、油温Ｔｏｉｌが通常の温度から過度にずれている場合にとって適切な油圧指令値Ｐ＊がわずかに反映されたグリーディ行動ａｇとなるように関係規定データＤＲを更新できる。

＜第３の実施形態＞
以下、第３の実施形態について、第１の実施形態との相違点を中心に図面を参照しつつ説明する。

図７に、本実施形態にかかるシステムの構成を示す。なお、図７において図１に示した部材に対応する部材については、便宜上同一の符号を付してその説明を省略する。
図７に示すように、車両ＶＣ（１）の制御装置４０は、通信機４７を備えており、通信機４７によって外部のネットワーク８０を介してデータ解析センター９０と通信可能となっている。

データ解析センター９０は、複数の車両ＶＣ（１），ＶＣ（２），…から送信されるデータを解析する。データ解析センター９０は、ＣＰＵ９２、ＲＯＭ９４、記憶装置９６および通信機９７を備えており、それらがローカルネットワーク９９を介して通信可能とされている。なお、記憶装置９６は、電気的に書き換え可能な不揮発性の装置であり、関係規定データＤＲを記憶している。

図８に、本実施形態にかかる強化学習の処理手順を示す。図８（ａ）に示す処理は、図７に示すＲＯＭ４４に記憶されている学習サブプログラムＤＬＰａをＣＰＵ４２が実行することにより実現される。また、図８（ｂ）に示す処理は、ＲＯＭ９４に記憶されている学習メインプログラムＤＬＰｂをＣＰＵ９２が実行することにより実現される。なお、図８において図２に示した処理に対応する処理については、便宜上同一のステップ番号を付している。以下では、強化学習の時系列に沿って、図８に示す処理を説明する。

図８（ａ）に示す一連の処理において、制御装置４０のＣＰＵ４２は、まず、Ｓ１０～Ｓ２０の処理を実行すると、変速が完了したか否かを判定する（Ｓ８０）。そしてＣＰＵ４２は、変速が完了したと判定する場合（Ｓ８０：ＹＥＳ）、吹き量最大値ΔＮｍ２ｍａｘおよび変速時間Ｔｓｆｔを算出する（Ｓ８２）。そして、ＣＰＵ４２は、通信機４７を操作することにより、強化学習によって関係規定データＤＲを更新するためのデータである、吹き量最大値ΔＮｍ２ｍａｘおよび変速時間Ｔｓｆｔや、変速期間における状態ｓ、行動ａ、制限フラグＦを、車両ＶＣ（１）の識別記号とともに送信する（Ｓ８４）。

これに対し、図８（ｂ）に示すように、データ解析センター９０のＣＰＵ９２は、強化学習によって関係規定データＤＲを更新するためのデータを受信する（Ｓ９０）。そしてＣＰＵ９２は、受信したデータに基づき、Ｓ２６の処理を実行する。そしてＣＰＵ９２は、通信機９７を操作することによって、Ｓ９０の処理によって受信したデータの送信元に、更新した関係規定データＤＲを送信する（Ｓ９２）。なお、ＣＰＵ９２は、Ｓ９２の処理を完了する場合、図８（ｂ）に示す一連の処理を一旦終了する。

これに対し図８（ａ）に示すように、ＣＰＵ４２は、更新された関係規定データＤＲを受信する（Ｓ８６）。そしてＣＰＵ４２は、受信したデータに基づき、Ｓ１６，Ｓ２８の処理において利用する関係規定データＤＲを更新する（Ｓ８８）。なお、ＣＰＵ４２は、Ｓ８８，Ｓ３０の処理を完了する場合や、Ｓ１０，Ｓ８０の処理において否定判定する場合には、図８（ａ）に示す一連の処理を一旦終了する。ただし、ＣＰＵ４２は、Ｓ８０の処理において否定判定する場合においてフェーズの完了時でない場合には、図８（ａ）の一連の処理の次回の実行時においてＳ１２，Ｓ１６，Ｓ１８の処理を新たに実行することはなく、実質的にはＳ２０の処理に戻るのと等価とする。

このように、本実施形態によれば、関係規定データＤＲの更新処理を車両ＶＣ（１）の外部で行うことから、制御装置４０の演算負荷を軽減できる。さらに、たとえばＳ９０の処理において、複数の車両ＶＣ（１），ＶＣ（２），…からのデータを受信してＳ２６の処理を行うなら、学習に用いるデータ数を容易に大きくすることができる。

＜対応関係＞
上記実施形態における事項と、上記「課題を解決するための手段」の欄に記載した事項との対応関係は、次の通りである。以下では、「課題を解決するための手段」の欄に記載した解決手段の番号毎に、対応関係を示している。［１］駆動系装置は、変速装置２６に対応する。実行装置は、ＣＰＵ４２およびＲＯＭ４４に対応し、記憶装置は、記憶装置４６に対応する。取得処理は、Ｓ１２，Ｓ４２，Ｓ４６の処理に対応する。操作処理は、Ｓ１８の処理に対応する。報酬算出処理は、Ｓ２４，Ｓ２４ａの処理に対応する。更新処理は、Ｓ２６の処理に対応する。制限処理は、図２においては、Ｓ１４の処理において否定判定される場合にＳ２８に移行することに対応し、図６の処理においては、Ｓ４４ａ，Ｓ４８ａの処理に対応する。［２］異常判定処理は、Ｓ６２の処理に対応する。［３，４］制限処理は、図２においては、Ｓ６８の処理において肯定判定されＳ１４の処理において否定判定される場合にＳ２８に移行することに対応し、図６の処理においては、Ｓ４４ａ，Ｓ４８ａの処理に対応する。［５］図２の処理に対応する。［６～８］第１実行装置は、ＣＰＵ４２およびＲＯＭ４４に対応し、第２実行装置は、ＣＰＵ９２およびＲＯＭ９４に対応する。

＜その他の実施形態＞
なお、本実施形態は、以下のように変更して実施することができる。本実施形態および以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。

「異常判定処理について」
・異常判定処理としては、Ｓ６２の処理に限らない。たとえば、ソレノイドバルブ２８ａに流れる電流の挙動に基づき異常の有無を判定するものであってもよい。ここで、ソレノイドバルブ２８ａに流れる電流の指令値をステップ的に増加させる場合の、実際の電流の応答性は、ソレノイドバルブ２８ａに動作不良が生じている場合に動作不良が生じていない場合と比較して高くなる傾向がある。そのため、たとえば応答速度に応じて異常の有無を判定できる。なお、この異常判定処理は、変速期間以外に実行することもできる。これはたとえば、解放状態とされている摩擦係合要素を解放状態に維持する条件でソレノイドバルブ２８ａを微小に振動させるべくソレノイドバルブ２８ａに流れる電流を微小に振動させる際の電流の挙動に基づき異常の有無を判定することによって実現できる。

・異常判定処理としては、変速制御の異常の有無を判定する処理に限らない。「駆動系装置について」の欄に記載したように、関係規定データＤＲに基づく行動変数の値に応じて操作される対象となる駆動系装置を内燃機関とする場合、たとえば、内燃機関の周知の異常判定処理を採用すればよい。また、関係規定データＤＲに基づく行動変数の値に応じて操作される対象となる駆動系装置を回転電機の駆動回路とする場合、たとえば、回転電機や駆動回路の周知の異常判定処理を採用すればよい。

「制限処理について」
・図６の処理では、油温Ｔｏｉｌが高温側閾値ＴＨ以上の場合、変速時間Ｔｓｆｔに応じた報酬ｒ１がゼロ以外となることを許容したが、これに限らない。

・図６の処理では、油温Ｔｏｉｌが低温側閾値ＴＬ以下の場合、変速時間Ｔｓｆｔに応じた報酬ｒ１がゼロ以外となることを許容したが、これに限らない。
・図６の処理では、油温Ｔｏｉｌが高温側閾値ＴＨ以上の場合、吹き量最大値ΔＮｍ２ｍａｘに応じた報酬ｒ２がゼロ以外となることを許容したが、これに限らない。

・図６の処理では、油温Ｔｏｉｌが低温側閾値ＴＬ以下の場合、吹き量最大値ΔＮｍ２ｍａｘにかかわらず、吹き量最大値ΔＮｍ２ｍａｘに応じた報酬ｒ２をゼロとしたが、これに限らない。

・上記第２の実施形態では、フェーズ３の報酬ｒをゼロとする場合であっても、グリーディ行動ａｇ以外の行動を採用しえたが、グリーディ行動ａｇのみが採用されるようにしてもよい。

「駆動系装置について」
・関係規定データＤＲに基づく行動変数の値に応じて操作される対象となる駆動系装置としては、有段の変速装置２６に限らない。たとえば無段変速装置であってもよい。またたとえば、内燃機関１０であってもよい。またたとえば、第１インバータ２３や第２インバータ２５等の回転電機の駆動回路であってもよい。こうした場合であっても、異常が生じている場合に強化学習がなされると、関係規定データＤＲが不適切に更新されるおそれがあることから、上記実施形態の要領で更新を制限することは有効である。また、たとえば極低温時には内燃機関のフリクションが過大となったり、バッテリの出力低下による回転電機の出力低下が生じたりすることから、強化学習がなされると、関係規定データＤＲが不適切に更新されるおそれがあることから、上記実施形態の要領で更新を制限することは有効である。

「関係規定データに基づく行動変数の値の選択に用いられる状態について」
・関係規定データに基づく行動変数の値の選択に用いられる状態としては、上記実施形態において例示したものに限らない。たとえば、フェーズ２、フェーズ３についてそれ以前の行動変数の値に依存した状態変数としては、回転速度Ｎｍ２に限らず、たとえば吹き量ΔＮｍ２であってもよい。またたとえば、発熱量としてもよい。もっとも、たとえば「更新写像について」の欄に記載したようにｐｒｏｆｉｔｓｈａｒｉｎｇのアルゴリズムを用いる場合などには、フェーズ２、フェーズ３についてそれ以前の行動変数の値に依存した状態変数を、行動変数の値の選択に用いられる状態に含めなくてもよい。

・状態変数に、アクセル操作量ＡＣＣＰを含めることは必須ではない。
・状態変数に、油温Ｔｏｉｌを含めることは必須でない。
・状態変数に、フェーズ変数Ｖｐａｓｅを含めることは必須ではない。たとえば変速開始からの時間や入力軸の回転速度、変速変数ΔＶｓｆｔを状態変数に含めて、都度の行動を指定する行動価値関数Ｑを構成し、同行動価値関数を用いて強化学習を行ってもよい。その場合、変速期間を予め３つのフェーズに指定しない。

・たとえば「駆動系装置について」の欄に記載したように、行動変数の値に基づく操作対象を内燃機関や回転電機の駆動回路とする場合、状態に、アクセル操作量ＡＣＣＰ等を含めればよい。

「行動変数について」
・上記実施形態では、フェーズ３の行動変数を、圧力上昇速度としたが、これに限らず、たとえばフェーズ３をさらに細分化してそれら各段階における圧力指令値としてもよい。

・上記実施形態では、圧力指令値や圧力上昇速度を行動変数としたが、これに限らず、たとえばソレノイドバルブ２８ａへの通電電流の指令値としてもよい。
・たとえば「駆動系装置について」の欄に記載したように、行動変数の値に基づく操作対象を内燃機関とする場合、行動変数には、たとえば燃料噴射量や噴射時期を含めてもよい。またたとえば内燃機関が火花点火式内燃機関の場合には、行動変数に、スロットルバルブや点火時期を含めればよい。

・たとえば「駆動系装置について」の欄に記載したように、行動変数の値に基づく操作対象を回転電機の駆動回路とする場合、行動変数に、回転電機のトルクや電流を含めればよい。

「関係規定データについて」
・上記実施形態では、行動価値関数Ｑを、テーブル形式の関数としたが、これに限らない。たとえば、関数近似器を用いてもよい。

・たとえば、行動価値関数Ｑを用いる代わりに、方策πを、状態ｓおよび行動ａを独立変数とし、行動ａをとる確率を従属変数とする関数近似器にて表現し、関数近似器を定めるパラメータを、報酬ｒに応じて更新してもよい。

「操作処理について」
・たとえば「関係規定データについて」の欄に記載したように、行動価値関数Ｑを関数近似器とする場合、上記実施形態におけるテーブル型式の関数の独立変数となる行動についての離散的な値のそれぞれについて、状態ｓとともに行動価値関数Ｑに入力することによって、行動価値関数Ｑを最大化する行動ａを選択すればよい。

・たとえば「関係規定データについて」の欄に記載したように、方策πを、状態ｓおよび行動ａを独立変数とし、行動ａをとる確率を従属変数とする関数近似器とする場合、方策πによって示される確率に基づき行動ａを選択すればよい。

「更新写像について」
・Ｓ２６の処理においては、方策オフ型ＴＤ法であるいわゆるＱ学習を例示したが、これに限らない。たとえば、方策オン型ＴＤ法であるいわゆるＳＡＲＳＡ法によるものであってもよい。もっとも、ＴＤ法によるものに限らず、たとえば、モンテカルロ法を用いたり、適格度トレース法を用いたりしてもよい。

・報酬に基づく関係規定データの更新写像として、たとえばｐｒｏｆｉｔｓｈａｒｉｎｇのアルゴリズムに従った写像を用いてもよい。ｐｒｏｆｉｔｓｈａｒｉｎｇのアルゴリズムに従った写像を用いる例を、図２に例示した処理の変更例とする場合、たとえば次のようにしてもよい。すなわち、報酬の算出を、変速が完了した段階で実行する。そして、算出した報酬を、強化関数に従って、変速にかかわった各状態行動対を定めるルールに割り振る。ここで強化関数としては、たとえば周知の等比減少関数を用いてもよい。特に、変速時間Ｔｓｆｔは、フェーズ３の行動変数の値と強い相関を有することから、変速時間Ｔｓｆｔに応じた報酬を分配する場合には、強化関数として等比減少関数を用いることが特に有効である。もっとも、等比減少関数に限らない。たとえば、「報酬算出処理について」の欄に記載したように発熱量に基づき報酬を与える場合、発熱量がフェーズ１の行動変数の値と強く相関を有することに鑑み、発熱量に応じた報酬のフェーズ１への配分が最も大きくなるようにしてもよい。

・たとえば「関係規定データについて」の欄に記載したように、方策πを関数近似器を用いて表現し、これを報酬ｒに基づき直接更新する場合には、方策勾配法等を用いて更新写像を構成すればよい。

・行動価値関数Ｑと方策πとのうちのいずれか一方のみを、報酬ｒによる直接の更新対象とするものに限らない。たとえば、アクター・クリティック法のように、行動価値関数Ｑおよび方策πをそれぞれ更新してもよい。また、アクター・クリティック法においては、これに限らず、たとえば行動価値関数Ｑに代えて価値関数Ｖを更新対象としてもよい。

「報酬算出処理について」
・上記実施形態では、変速時間Ｔｓｆｔが短い場合に長い場合よりも大きい報酬を与える処理と、吹き量ΔＮｍ２が小さい場合に大きい場合よりも大きい報酬を与える処理とを実行したが、それら２つを実行する代わりに、それら２つに関しては、それらのいずれか一方のみを実行してもよい。

・変速比の切り替え期間における摩擦係合要素の発熱量が小さい場合に大きい場合よりも大きい報酬を与える処理を報酬算出処理に含めてもよい。
・たとえば「行動変数について」の欄に記載したように、回転電機のトルクや出力を行動変数とする場合、バッテリの充電率が所定範囲内にある場合にない場合よりも大きい報酬を与える処理や、バッテリの温度が所定範囲内にある場合にない場合よりも大きい報酬を与える処理を含めてもよい。

・たとえば「行動変数について」の欄に記載したように、スロットルバルブ等を行動変数とする場合、アクセル操作による加速要求に対するレスポンスが高い場合に低い場合よりも大きい報酬を与える処理を含めてもよい。なお、ここでのレスポンスは、たとえば吸入空気量等から把握される内燃機関のトルクの上昇速度によって把握できる。

「車両用制御システムについて」
・図８に示した例では、方策πに基づく行動を決定する処理（Ｓ１６，Ｓ２８の処理）を、車両側で実行したが、これに限らない。たとえば、車両ＶＣ１からＳ１２の処理によって取得したデータを送信することとし、データ解析センター９０が、送信されたデータを用いて行動ａを決定し、決定した行動を車両ＶＣ１に送信してもよい。

・車両用制御システムとしては、制御装置４０およびデータ解析センター９０によって構成されるものに限らない。たとえば、データ解析センター９０に代えて、ユーザの携帯端末を用いてもよい。また、制御装置４０およびデータ解析センター９０と携帯端末とによって車両用制御システムを構成してもよい。これは、たとえばＳ１６，Ｓ２８の処理を携帯端末によって実行することにより実現できる。

「実行装置について」
・実行装置としては、ＣＰＵ４２（９２）とＲＯＭ４４（９４）とを備えて、ソフトウェア処理を実行するものに限らない。たとえば、上記実施形態においてソフトウェア処理されたものの少なくとも一部を、ハードウェア処理するたとえばＡＳＩＣ等の専用のハードウェア回路を備えてもよい。すなわち、実行装置は、以下の（ａ）～（ｃ）のいずれかの構成であればよい。（ａ）上記処理の全てを、プログラムに従って実行する処理装置と、プログラムを記憶するＲＯＭ等のプログラム格納装置とを備える。（ｂ）上記処理の一部をプログラムに従って実行する処理装置およびプログラム格納装置と、残りの処理を実行する専用のハードウェア回路とを備える。（ｃ）上記処理の全てを実行する専用のハードウェア回路を備える。ここで、処理装置およびプログラム格納装置を備えたソフトウェア実行装置や、専用のハードウェア回路は複数であってもよい。

「記憶装置について」
・上記実施形態では、関係規定データＤＲが記憶される記憶装置と、学習プログラムＤＬＰや学習サブプログラムＤＬＰａ、学習メインプログラムＤＬＰｂが記憶される記憶装置（ＲＯＭ４４，９４）とを別の記憶装置としたが、これに限らない。

「車両について」
・車両としては、シリーズ・パラレルハイブリッド車に限らない。たとえばシリーズハイブリッド車や、パラレルハイブリッド車であってもよい。なお、車載回転機として、内燃機関とモータジェネレータとを備えるものにも限らない。たとえば内燃機関を備えるもののモータジェネレータを備えない車両であってもよく、またたとえばモータジェネレータを備えるものの内燃機関を備えない車両であってもよい。

１０…内燃機関
２０…動力分割装置
２２…第１モータジェネレータ
２４…第２モータジェネレータ
２６…変速装置
４０…制御装置
９０…データ解析センター

Claims

実行装置および記憶装置を備え、
前記記憶装置には、車両の状態と前記車両に搭載されている駆動系装置の操作に関する変数である行動変数との関係を規定するためのデータである関係規定データが記憶されており、
前記実行装置は、
センサの検出値に基づく前記状態を取得する取得処理と、
前記取得処理によって取得された前記状態と前記関係規定データとによって定まる前記行動変数の値に基づき前記駆動系装置を操作する操作処理と、
前記取得処理によって取得された前記状態に基づく前記駆動系装置の状態が所定の基準を満たす場合に満たさない場合よりも大きい報酬を与える報酬算出処理と、
前記取得処理によって取得された前記状態、前記駆動系装置の操作に用いられた前記行動変数の値、および該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、
通常時と比較して前記駆動系装置の駆動に制約がある場合、前記更新処理による前記関係規定データの更新量が小さくなる側に前記更新処理の実行を制限する制限処理と、
を実行し、
前記更新写像は、前記関係規定データに従って前記駆動系装置が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものである車両用制御装置。
前記実行装置は、前記駆動系装置の異常の有無を判定する異常判定処理を実行し、
前記制限処理は、前記異常判定処理によって異常があると判定される場合に通常時と比較して前記駆動系装置の駆動に制約がある場合であるとして、前記更新処理の実行を制限する処理を含む請求項１記載の車両用制御装置。
前記駆動系装置は、変速装置を含み、
前記制限処理は、前記変速装置の作動油の温度が高温側閾値以上である場合に通常時と比較して前記駆動系装置の駆動に制約がある場合であるとして、前記更新量を制限する処理を含む請求項１または２記載の車両用制御装置。
前記駆動系装置は、変速装置を含み、
前記制限処理は、前記変速装置の作動油の温度が低温側閾値以下である場合に通常時と比較して前記駆動系装置の駆動に制約がある場合であるとして、前記更新量を制限する処理を含む請求項１～３のいずれか１項に記載の車両用制御装置。
前記制限処理は、前記更新量をゼロとする処理である請求項１～４のいずれか１項に記載の車両用制御装置。
請求項１～５のいずれか１項に記載の前記実行装置および前記記憶装置を備え、
前記実行装置は、前記車両に搭載される第１実行装置と、車載装置とは別の第２実行装置と、を含み、
前記第１実行装置は、少なくとも前記取得処理および前記操作処理を実行し、
前記第２実行装置は、少なくとも前記更新処理を実行する車両用制御システム。
請求項６記載の車両用制御システムにおける第１実行装置を備える車両用制御装置。
請求項６記載の車両用制御システムにおける第２実行装置を備える車両用学習装置。