JP2022077245A

JP2022077245A - ロックアップクラッチの制御装置

Info

Publication number: JP2022077245A
Application number: JP2020188009A
Authority: JP
Inventors: 健今村; Takeshi Imamura
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2022-05-23

Abstract

【課題】ロックアップクラッチに供給される油圧と車両の異常振動との関係について、車両の振動を小さくできる好適なマップを作成するためには、熟練者が多くの工数をかける必要がある。【解決手段】ＣＰＵは、車両の状態ｓを取得する状態取得処理を行う（Ｓ１２）。ＣＰＵは、車両の状態ｓと関係規定データに基づき行動変数ａを算出する（Ｓ１４）。ＣＰＵは、算出した行動変数ａによって定まる油圧指令値Ｐ＊になるように、ロックアップクラッチを操作する（Ｓ１６）。ＣＰＵは、車両の特性ｃとして、動力伝達効率ＰＴＥ及び振動の強度値ＶＶを取得する（Ｓ１８）。ＣＰＵは、車両の特性ｃが所定の基準を満たす場合に満たさない場合よりも大きい報酬を与えることによって関係規定データの行動価値関数を更新する（Ｓ２０）。【選択図】図２

Description

本発明は、ロックアップクラッチの制御装置に関する。

特許文献１に記載の車両は、トルクコンバータを備えている。トルクコンバータは、入力側部材と出力側部材とを直接機械的に連結可能なロックアップクラッチを備えている。ロックアップクラッチの状態は、供給される油圧によって、係合状態、スリップ状態及び解放状態のいずれかに制御される。ロックアップクラッチに供給される油圧は、車両に異常振動が生じないように、予め定められたマップに基づいて制御されている。

特開２０１３－１２２３１５号公報

特許文献１に記載の車両において、ロックアップクラッチに供給される油圧と車両の異常振動との関係は、必ずしも単純な関係になるとは限らないし、他のパラメータによっても影響を受け得る。したがって、車両の振動を小さくできる好適なマップを作成するためには、熟練者が多くの工数をかける必要がある。

上記課題を解決するため、本発明は、ロックアップクラッチを内蔵するトルクコンバータを備える車両に適用され、前記ロックアップクラッチの油圧指令値を制御する制御装置であって、記憶装置と、実行装置と、を備え、前記記憶装置には、前記車両の状態と前記ロックアップクラッチの操作に関する変数である行動変数との関係を規定するためのデータである関係規定データが記憶されており、前記実行装置は、センサの検出値に基づく前記車両の状態を取得する状態取得処理と、前記状態取得処理によって取得された前記車両の状態と前記関係規定データとに基づき前記行動変数を算出し、算出した前記行動変数によって定まる前記油圧指令値になるように前記ロックアップクラッチを操作する操作処理と、前記操作処理において前記ロックアップクラッチが操作された際の前記車両の特性を取得する特性取得処理と、前記特性取得処理によって取得された前記車両の特性が所定の基準を満たす場合に満たさない場合よりも大きい報酬を与える報酬算出処理と、前記状態取得処理によって取得された前記車両の状態、前記ロックアップクラッチの操作に用いられた前記行動変数の値、及び該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、を実行し、前記更新写像は、前記関係規定データに従って前記ロックアップクラッチが操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものであり、前記車両の特性には、前記ロックアップクラッチにおける入力側の動力が出力側に伝達する効率を示す動力伝達効率と、前記車両の前後方向の振動の強度を示す値と、を含むロックアップクラッチの制御装置である。

上記構成によれば、ロックアップクラッチの操作に伴う報酬に基づき、強化学習に従った更新写像によって関係規定データを更新する。このことにより、車両の状態と行動変数との関係を適切に設定できる。したがって、車両の状態と行動変数との関係の設定に際して、必ずしも熟練者の手を煩わせることはない。

ここで、更新写像の入力には、車両の前後方向の振動の強度を示す値だけでなく、ロックアップクラッチの動力伝達効率を含んでいる。そのため、車両の振動のうち、例えば内燃機関の失火等に由来する振動の強度が所定の条件を満たす場合だけでなく動力伝達効率が所定の条件を満たす場合にも大きい報酬が与えられるように学習する。その結果、ロックアップクラッチの操作に関する変数である行動変数を、振動の強度を示す値及び動力伝達効率が共に適切な値となるように規定した関係規定データを得られる。すなわち、高い動力伝達効率を確保しつつも異常振動の発生を抑制できるという複雑な関係規定データを、簡便に得ることができる。

車両及びその制御装置を示す概略図。制御装置が実行する処理の手順を示す流れ図。制御装置が実行する処理の一部の詳細な手順を示す流れ図。学習領域を示す表。

以下、ロックアップクラッチの制御装置の一実施形態について図面を参照して説明する。
（車両の全体構成）
先ず、ロックアップクラッチの制御装置が適用される車両の全体構成について説明する。

図１に示すように、車両ＶＣには、内燃機関１０が搭載されている。内燃機関１０は、外気を吸入するための吸気通路１２を備えている。吸気通路１２には、弁開度の変更を通じて吸入空気量を調整するスロットルバルブ１４が収容されている。

吸気通路１２のスロットルバルブ１４よりも下流側は、吸気ポート１６を介して気筒１８に接続されている。吸気通路１２のスロットルバルブ１４よりも下流側には、吸気ポート１６に燃料を噴射する燃料噴射弁２０が取り付けられている。

気筒１８の内部には、気筒１８内で往復運動するピストン２２が収容されている。気筒１８内には、ピストン２２によって、燃焼室Ｒが区画されている。気筒１８には、排気ポート２４を介して、排気通路２６が接続されている。排気通路２６には、排気中の一酸化炭素や窒素酸化物等を浄化するための排気浄化触媒２８が設けられている。

気筒１８の内部において、吸気ポート１６と排気ポート２４との間には、燃料を点火するための点火プラグ３０が配置されている。また、内燃機関１０は、吸気ポート１６の燃焼室Ｒ側の開口を開閉するための吸気バルブ３２と、排気ポート２４の燃焼室Ｒ側の開口を開閉するための排気バルブ３４とを備えている。

なお、図１では、気筒１８及びこれに接続された吸気ポート１６及び排気ポート２４等を１組のみ図示しているが、内燃機関１０には、気筒１８及びこれに接続された吸気ポート１６及び排気ポート２４等が複数組設けられている。

また、ピストン２２には、コネクティングロッド３５を介してクランク軸３６が連結されている。燃料噴射弁２０から燃料が噴射されるとともに吸気バルブ３２が開弁されると、燃焼室Ｒに空燃料と空気との混合気が流入する。燃焼室Ｒに流入した混合気は、点火プラグ３０の火花放電に伴って燃焼に供される。この燃焼によって生じたエネルギは、ピストン２２を介してクランク軸３６の回転エネルギに変換される。なお、燃焼に供された混合気は、排気バルブ３４が開弁したときに、排気ポート２４を介して排気通路２６に排出される。

クランク軸３６には、トルクコンバータ４０の入力軸４４が接続されている。トルクコンバータ４０の出力軸４６は、自動変速機５０の入力軸５２に接続されている。
詳細は省略するが、トルクコンバータ４０は、流体伝達機構であり、入力軸４４に接続されたポンプインペラと、自動変速機５０の入力軸５２に接続されているタービンインペラとを備えている。トルクコンバータ４０では、流体を介してポンプインペラとタービンインペラとの間でトルク伝達が行われることにより、トルクコンバータ４０の入力軸４４と出力軸４６との間でのトルク伝達が行われる。

また、トルクコンバータ４０は、ロックアップクラッチ４２を備えている。ロックアップクラッチ４２は、トルクコンバータ４０の入力軸４４と、出力軸４６とを、直結可能なクラッチである。ロックアップクラッチ４２は、直結状態、解放状態、及びスリップ状態のいずれかの状態をとる。直結状態は、入力軸４４と出力軸４６とが直結された状態である。解放状態は、入力軸４４と出力軸４６との間でロックアップクラッチ４２を介したトルクの伝達が略無い状態である。スリップ状態は、入力軸４４と出力軸４６との間でロックアップクラッチ４２を介したトルクの伝達をしつつ互いに相対回転可能な状態である。ロックアップクラッチ４２は、図示を省略するオイルポンプから供給されるオイルを作動油としている。作動油の圧力は、ロックアップクラッチ４２の油圧制御回路によって調整される。作動油の圧力が調整されることにより、ロックアップクラッチ４２は、上記３つの状態のいずれかに制御される。油圧制御回路は、ソレノイドバルブを備えており、ソレノイドバルブの通電によって、作動油の流通状態や作動油の油圧を制御する回路である。

自動変速機５０は、入力軸５２の回転速度と、出力軸５４の回転速度との比である変速比を可変とする装置である。詳細は省略するが、自動変速機５０は、複数の摩擦係合要素を備えており、これらの摩擦係合要素の係合及び解放によって、変速比が切り替わる。自動変速機５０の出力軸５４には、図示しないディファレンシャルギア等を介して、駆動輪６０が機械的に連結されている。

車両ＶＣには、制御装置７０が備わっている。制御装置７０は、内燃機関１０を制御対象とし、その制御量であるトルクや排気成分比率等を制御すべく、内燃機関１０の各種操作部を操作する。例えば、制御装置７０は、燃料噴射弁２０からの燃料噴射の停止による内燃機関１０への燃料供給の停止処理であるフューエルカット制御を行う。

より具体的には、フューエルカット制御は、燃料噴射制御の一環として、例えばアクセル操作量ＡＣＣＰが「０」になっている減速中に、燃料の噴射を停止して燃焼室Ｒへの燃料の供給を停止し、燃料消費率の低減を図る制御である。

また、制御装置７０は、自動変速機５０を制御対象とし、自動変速機５０の変速比を制御すべく、自動変速機５０の摩擦係合要素を操作する。さらに、制御装置７０は、トルクコンバータ４０を制御対象とし、ロックアップクラッチ４２の係合状態を制御すべく、ロックアップクラッチ４２を操作する。この実施形態では、制御装置７０は、ロックアップクラッチ４２に対する油圧指令値Ｐ＊を設定する。そして、制御装置７０は、この油圧指令値Ｐ＊を実現するべく油圧制御回路のソレノイドバルブ等を制御することにより、ロックアップクラッチ４２を操作する。なお、図１には、スロットルバルブ１４、燃料噴射弁２０、点火プラグ３０、ロックアップクラッチ４２、及び自動変速機５０のそれぞれの操作信号ＭＳ１～ＭＳ５を記載している。

制御装置７０は、制御量の制御のために、エアフロメータ８０によって検出される吸入空気量Ｇａや、スロットルセンサ８２によって検出されるスロットルバルブ１４の開口度であるスロットル開口度ＴＡ、クランク角センサ８４の出力信号Ｓｃｒを参照する。また、制御装置７０は、アクセルセンサ８８によって検出されるアクセルペダル８６の踏み込み量であるアクセル操作量ＡＣＣＰや、加速度センサ９０によって検出される車両ＶＣの前後方向の加速度Ｇを参照する。さらに、車速センサ９２によって検出される車両ＶＣの車速Ｖや、水温センサ９４によって検出されるエンジン水温Ｔｗを参照する。

また、制御装置７０は、入力側回転速度センサ９８によって検出されるトルクコンバータ４０の入力軸４４の回転速度ＲＳ１と、出力側回転速度センサ９９によって検出されるトルクコンバータ４０の出力軸４６の回転速度ＲＳ２と、を参照する。

また、制御装置７０は、フューエルカット制御をしているか否かを示す信号Ｖｆｃを参照する。信号Ｖｆｃは、制御装置７０がフューエルカット制御を行う場合にオン状態を示し、制御装置７０がフューエルカット制御を行わない場合にオフ状態を示す。なお、信号Ｖｆｃは、燃料噴射弁２０の操作信号ＭＳ２に含まれており、制御装置７０内にて生成される信号である。

また、制御装置７０は、車両ＶＣの前後方向の振動の強度を示す強度値ＶＶを参照する。車両ＶＣの前後方向の振動には、内燃機関１０の駆動に起因する振動が含まれている。このような振動は、例えば、内燃機関１０の失火等によって発生する車両ＶＣの前後方向のサージ振動である。そのため、本実施形態における車両ＶＣの前後方向の振動は、ロックアップクラッチ４２が、直結状態又はスリップ状態である場合に起きうる振動である。また、サージ振動は、１０Ｈｚ以下の周波数帯域で車両が揺れる現象である。強度値ＶＶは、例えば、振動の予め定められた特定の周波数、例えば数Ｈｚでのパワースペクトルである。制御装置７０は、加速度センサ９０によって検出される車両ＶＣの前後方向の加速度Ｇの時系列データを、高速フーリエ変換することにより、車両ＶＣにおける振動のエネルギを単位周波数毎に表すグラフを作成する。そして、制御装置７０は、作成したグラフから、特定の周波数におけるパワースペクトルを取得する。

制御装置７０は、実行装置であるＣＰＵ７２及びＲＯＭ７４、電気的に書き換え可能な不揮発性メモリである記憶装置７６、及び周辺回路７８を備え、それらが内部バス７９を介して通信可能とされている。ここで、周辺回路７８は、内部の動作を規定するクロック信号を生成する回路や、電源回路、リセット回路等を含む。制御装置７０は、ＲＯＭ７４に記憶されたプログラムをＣＰＵ７２が実行することにより制御量を制御する。

（係合状態の制御処理について）
次に、ロックアップクラッチ４２の係合状態を制御するために、制御装置７０が実行する処理の手順を説明する。図２に示す処理は、ＲＯＭ７４に記憶されている学習プログラムＤＰＬをＣＰＵ７２が例えば所定周期で繰り返し実行することにより実現される。すなわち、ＣＰＵ７２は、学習プログラムＤＰＬに従って、ロックアップクラッチ４２の油圧の学習方法を実行する。なお、以下では、先頭に「Ｓ」が付与された数字によって各処理のステップ番号を表現する。

図２に示す一連の処理が開始されると、先ず、ＣＰＵ７２は、加速度センサ９０によって検出される加速度Ｇが「０」以上か否かを判定する（Ｓ１０）。そして、この判定結果に基づき、ＣＰＵ７２は、図１に示す記憶装置７６に関係規定データＤＲとして記憶されている第１関係規定データＤＲ１及び第２関係規定データＤＲ２のうち、いずれか一方を選択する。具体的には、加速度センサ９０によって検出される加速度Ｇが「０」以上の場合には、第１関係規定データＤＲ１を選択する。一方で、加速度Ｇが「０」未満の場合には、第２関係規定データＤＲ２を選択する。

次に、ＣＰＵ７２は、車両ＶＣの状態ｓとしてのアクセル操作量ＡＣＣＰ、車速Ｖ、及びエンジン水温Ｔｗを取得する状態取得処理を行う（Ｓ１２）。状態ｓは、図１に示す記憶装置７６に記憶されている関係規定データＤＲによって行動変数との関係が規定される変数の値である。ここで、本実施形態では、行動変数として、ロックアップクラッチ４２に供給するオイルの圧力である油圧指令値Ｐ＊の補正値ΔＰを例示する。

油圧指令値Ｐ＊は、ベース値Ｐｂａ＊と補正値ΔＰとの和で算出される。ベース値Ｐｂａ＊は、アクセル操作量ＡＣＣＰ、車速Ｖ、及びエンジン水温Ｔｗを入力変数とし、ベース値Ｐｂａ＊を出力変数とするマップデータがＲＯＭ７４に予め記憶されている状態で、ＣＰＵ７２によりマップ演算することにより算出される。

ベース値Ｐｂａ＊は、アクセル操作量ＡＣＣＰが相応に大きい場合、又は車速Ｖが相応に小さい場合には、ロックアップクラッチ４２が解放状態となるように、小さい値として算出される。一方で、ベース値Ｐｂａ＊は、アクセル操作量ＡＣＣＰが相応に小さく、且つ車速Ｖが相応に大きい場合には、ロックアップクラッチ４２が直結状態となるように、大きい値として算出される。また、ベース値Ｐｂａ＊は、アクセル操作量ＡＣＣＰ及び車速Ｖによっては、ロックアップクラッチ４２がスリップ状態となるように算出される。ベース値Ｐｂａ＊は、エンジン水温Ｔｗが小さいほど大きい値となるように補正される。なお、油圧指令値Ｐ＊は、変速段毎に異なるマップデータによりマップ演算される。

そして、関係規定データＤＲは、行動価値関数Ｑを含む。行動価値関数Ｑは、状態ｓ及び行動ａを独立変数とし、それら状態ｓ及び行動ａに対して期待される収益を従属変数とする関数である。本実施形態では、行動価値関数Ｑを、テーブル形式の関数とする。なお、本実施形態では、第１関係規定データＤＲ１と第２関係規定データＤＲ２とは異なる別のデータである。したがって、第１関係規定データＤＲ１及び第２関係規定データＤＲ２は、いずれも行動価値関数Ｑを有しているが、各関係規定データＤＲの行動価値関数Ｑは互いに連動しない独立した値である。

次に、ＣＰＵ７２は、関係規定データＤＲによって規定される方策πに基づき、行動変数の値、すなわち油圧指令値Ｐ＊の補正値ΔＰを算出する（Ｓ１４）。本実施形態では、方策として、εグリーディ方策を例示する。すなわち、状態ｓが与えられたときに、独立変数が与えられた状態ｓとなる行動価値関数Ｑのうち最大となる行動であるグリーディ行動ａｇを優先的に選択しつつも、所定の確率で、それ以外の行動を選択する規則を定める方策を例示する。具体的には、行動がとりうる値の総数を「｜Ａ｜」にて表記する場合、グリーディ行動以外の行動をとる確率を、それぞれ「ε／｜Ａ｜」とする。

ちなみに、本実施形態では行動価値関数Ｑをテーブル形式のデータとしていることに鑑み、独立変数としての状態ｓは、一定の幅を有するものとする。すなわち、例えばアクセル操作量ＡＣＣＰについては１０％間隔で行動価値関数Ｑを定義する場合、アクセル操作量ＡＣＣＰが「３％」である場合と、「６％」である場合とは、それのみによって異なる状態ｓとされることはない。

次にＣＰＵ７２は、油圧指令値Ｐ＊をベース値Ｐｂａ＊と補正値ΔＰとの加算によって算出し、ソレノイドバルブの通電電流Ｉが油圧指令値Ｐ＊に基づき定まる値となるように通電電流Ｉを操作する操作処理を行う（Ｓ１６）。

そして、ＣＰＵ７２は、車両ＶＣの特性ｃを取得する特性取得処理を行う（Ｓ１８）。本実施形態では、ＣＰＵ７２は、車両ＶＣの特性ｃとして、動力伝達効率ＰＴＥ、振動の強度値ＶＶ、フューエルカットの有無を示す信号Ｖｆｃ、加速度Ｇを取得する。

動力伝達効率ＰＴＥは、ロックアップクラッチ４２の係合状態によって、ロックアップクラッチ４２の入力側の動力が、ロックアップクラッチ４２の出力側に伝達する効率を示す値である。動力伝達効率ＰＴＥは、Ｓ１６の処理を行った際の、ロックアップクラッチ４２の入力側の回転速度ＲＳ１と、出力側の回転速度ＲＳ２との差が大きいほど小さくなる。例えば、動力伝達効率ＰＴＥが、トルクコンバータ４０の入力軸４４の回転速度ＲＳ１に対するトルクコンバータ４０の出力軸４６の回転速度ＲＳ２の割合として算出されることで、ＣＰＵ７２は、動力伝達効率ＰＴＥを取得する。また、動力伝達効率ＰＴＥは、ロックアップクラッチ４２が解放状態である場合には「０」になる。

次にＣＰＵ７２は、強化学習によって、関係規定データＤＲに対する学習処理を行う（Ｓ２０）。ＣＰＵ７２は、Ｓ２０の処理を完了する場合には、図２に示す一連の処理を一旦終了する。

（学習処理について）
図３に、Ｓ２０の処理の詳細を示す。
図３に示す一連の処理において、ＣＰＵ７２は、先ず、学習領域を判定する（Ｓ３０）。図４に示すように、Ｓ１２の取得処理によって取得したアクセル操作量ＡＣＣＰ及び車速Ｖを入力変数とし、学習領域を出力変数とするマップデータによって、学習領域を判定する。例えば、アクセル操作量ＡＣＣＰが１５％で、車速Ｖが２５ｋｍ／ｈの場合、学習領域Ｂ３と判定される。なお、アクセル操作量ＡＣＣＰ及び車速Ｖは、小数点以下の値が四捨五入されて、学習領域を出力変数とするマップデータに入力される。

次に、ＣＰＵ７２は、Ｓ３０において判定された学習領域が学習する領域か否かを判定する（Ｓ３２）。図４に示す学習領域のうち、領域ＮＬで示す領域は、学習しない領域である。一方で、領域Ａ１～Ｄ６で示す領域は、学習する学習領域である。なお、図４では、車速Ｖが５０ｋｍ／ｈよりも大きい場合については、図示を省略している。

Ｓ３２において、学習する領域と判定された場合（Ｓ３２：ＹＥＳ）、ＣＰＵ７２は、Ｓ１０において加速度Ｇが「０」以上であると判定されたか、「０」未満であると判定されたかを確認する（Ｓ３４）。換言すれば、ＣＰＵ７２は、第１関係規定データＤＲ１を選択している状態であるか第２関係規定データＤＲ２を選択している状態であるかを判定する。

Ｓ３４において、Ｓ１０での判定が肯定であると判定された場合（Ｓ３４：ＹＥＳ）、ＣＰＵ７２は、動力伝達効率ＰＴＥに応じた報酬ｒ１を算出する報酬算出処理を行う（Ｓ３６）。詳しくは、ＣＰＵ７２は、動力伝達効率ＰＴＥが大きい場合に小さい場合よりも報酬ｒ１を大きい値に算出する。

次に、ＣＰＵ７２は、振動の強度値ＶＶに応じた報酬ｒ２を算出する報酬算出処理を行う（Ｓ３８）。詳しくは、ＣＰＵ７２は、強度値ＶＶが小さい場合に大きい場合よりも報酬ｒ２を大きい値に算出する。そして、ＣＰＵ７２は、Ｓ１６の処理において用いた行動に対する報酬ｒに、報酬ｒ１と報酬ｒ２との和を代入する（Ｓ４０）。

次に、ＣＰＵ７２は、ＣＰＵ７２は、Ｓ４０の処理が完了すると、Ｓ１４の処理において用いた第１関係規定データＤＲ１の行動価値関数Ｑ（ｓ，ａ）を、報酬ｒに基づき更新する更新処理を行う（Ｓ４２）。Ｓ１４の処理において用いた行動価値関数Ｑ（ｓ，ａ）とは、Ｓ１２の処理によって取得した状態ｓとＳ１４の処理によって設定された行動ａとを独立変数とする行動価値関数Ｑ（ｓ，ａ）のことである。

本実施形態では、方策オフ型のＴＤ法であるいわゆるＱ学習によって行動価値関数Ｑ（ｓ，ａ）を更新する。具体的には、以下の式（ｃ１）にて行動価値関数Ｑ（ｓ，ａ）を更新する。

Ｑ（ｓ，ａ）
←Ｑ＋α・｛ｒ＋γ・ｍａｘＱ（ｓ＋１，Ａ）－Ｑ（ｓ，ａ）｝ …（ｃ１）
ここで、行動価値関数Ｑ（ｓ，ａ）の更新量「α・｛ｒ＋γ・ｍａｘＱ（ｓ＋１，Ａ）－Ｑ（ｓ，ａ）｝」には、割引率γ及び学習率αを用いている。なお、割引率γ及び学習率αは、「０」よりも大きく「１」以下の定数である。また、「ｍａｘＱ（ｓ＋１，ａ）」は、図２に示す一連の処理の次回のＳ１２の処理によって取得されるべき状態ｓ＋１を独立変数とする行動価値関数Ｑのうちの最大値を意味する。

一方で、Ｓ３４において、Ｓ１０での判定が否定であると判定された場合（Ｓ３４：ＮＯ）、ＣＰＵ７２は、フューエルカットの有無を示す信号Ｖｆｃに応じた報酬ｒ３を算出する報酬算出処理を行う（Ｓ４４）。詳しくは、フューエルカットの有無を示す信号Ｖｆｃがオン状態である場合にオフ状態である場合よりも報酬ｒ３を大きい値に算出する。すなわち、報酬ｒ３は、フューエルカット制御が行われている場合に、フューエルカット制御が行われていない場合よりも、大きな値になる。

次に、ＣＰＵ７２は、加速度Ｇに応じた報酬ｒ４を算出する報酬算出処理を行う（Ｓ４６）。詳しくは、ＣＰＵ７２は、加速度Ｇが大きい場合に小さい場合よりも報酬ｒ４を大きい値に算出する。すなわち、急な減速の場合よりも緩やかな減速の場合に、報酬ｒ４は大きく算出される。そして、ＣＰＵ７２は、Ｓ１６の処理において用いた行動に対する報酬ｒに、報酬ｒ３と報酬ｒ４との和を代入する（Ｓ４８）。

次に、ＣＰＵ７２は、Ｓ４６の処理が完了すると、Ｓ１４の処理において用いた第２関係規定データＤＲ２の行動価値関数Ｑ（ｓ，ａ）を、報酬ｒに基づき更新する更新処理を行う（Ｓ５０）。Ｓ１４の処理において用いた行動価値関数Ｑ（ｓ，ａ）とは、Ｓ１２の処理によって取得した状態ｓとＳ１４の処理によって設定された行動ａとを独立変数とする行動価値関数Ｑ（ｓ，ａ）のことである。

本実施形態では、方策オフ型のＴＤ法であるいわゆるＱ学習によって行動価値関数Ｑ（ｓ，ａ）を更新する。行動価値関数Ｑ（ｓ，ａ）の具体的な更新内容は、Ｓ４２の処理と同様であるため、詳細な説明を省略する。

ＣＰＵ７２は、Ｓ４２の処理、又はＳ５０の処理が完了する場合、図３に示す一連の処理を一旦終了する。ちなみに、車両ＶＣの出荷時における関係規定データＤＲは、車両ＶＣと同一の仕様の試作車等において図２の処理と同様の処理によって学習がなされたデータとする。すなわち、図２の処理は、車両ＶＣの出荷前に設定された油圧指令値Ｐ＊を、車両ＶＣが実際に道路を走行する際に適切な値に強化学習によって更新するための処理である。なお、ＣＰＵ７２は、学習しない領域であった場合（Ｓ３２：ＮＯ）、図３に示す一連の処理を一旦終了する。

（実施形態の作用について）
次に、上記実施形態の作用を説明する。
上記実施形態において、ＣＰＵ７２は、ロックアップクラッチ４２に対する油圧指令値Ｐ＊を算出するうえで、グリーディ行動ａｇを選択してソレノイドバルブの通電電流Ｉを操作しつつも、所定の確率でグリーディ行動以外の行動を用いてよりよい油圧指令値Ｐ＊を探索する。そして、ＣＰＵ７２は、油圧指令値Ｐ＊を定めるために利用した行動価値関数ＱをＱ学習によって更新する。

（実施形態の効果について）
次に、上記実施形態の効果を説明する。
（１）上記実施形態によれば、油圧指令値Ｐ＊を定めるために利用した行動価値関数ＱをＱ学習によって更新するので、当該学習処理により、アクセル操作量ＡＣＣＰ及び車速Ｖと油圧指令値Ｐ＊の補正値ΔＰとの関係を適切に設定できる。そして、この一連の学習処理においては、必ずしも熟練者の手を煩わせることはないので、比較的に簡便にアクセル操作量ＡＣＣＰ及び車速Ｖと油圧指令値Ｐ＊の補正値ΔＰとの関係を規定できる。

特に、上記実施形態においては、車両ＶＣの特性ｃには、車両ＶＣの前後方向の振動の強度を示す値である強度値ＶＶだけでなく、動力伝達効率ＰＴＥが含まれている。動力伝達効率ＰＴＥは、ロックアップクラッチ４２が、ロックアップクラッチ４２として成立するために極めて重要なパラメータである。上記実施形態では、動力伝達効率ＰＴＥが可能な限り大きくなる一方で、振動の強度値ＶＶが可能な限り小さくなるように、油圧指令値Ｐ＊が算出される。その結果、ロックアップクラッチ４２が本来の機能を失うことなく、振動の強度値ＶＶが小さくなるように、油圧指令値Ｐ＊が設定される。すなわち、高い動力伝達効率を確保しつつも異常振動の発生を抑制できるという複雑な関係規定データＤＲを、簡便に得ることができる。

（２）上記実施形態によれば、加速度Ｇが「０」以上の場合には、動力伝達効率ＰＴＥ及び振動の強度値ＶＶに対して、報酬ｒを与える。振動の強度値ＶＶは、内燃機関１０由来の振動を検知する値であるため、加速度Ｇが「０」以上の場合に、相応に大きくなる。このように内燃機関１０に由来して車両ＶＣの前後方向の振動が発生し得る状況下で、振動の強度値ＶＶに関する報酬ｒを与えることで、異常振動の抑制に関する学習効果を高めることができる。

（３）上記実施形態によれば、加速度Ｇが「０」未満の場合には、フューエルカット制御の有無及び加速度Ｇに対して、報酬ｒを与える。車両ＶＣが減速している場合には、ロックアップクラッチ４２が解放状態である、すなわちロックアップクラッチ４２を介した動力伝達効率ＰＴＥが「０」である場合があり得る。また、減速中には内燃機関１０の負荷が小さかったり、ロックアップクラッチ４２が解放状態であったりするので、内燃機関１０の失火等によって、車両ＶＣの前後方向に大きな振動が発生する可能性は低い。つまり、減速時には、動力伝達効率ＰＴＥを大きくしたり、振動の強度値ＶＶを小さくしたりする必要性が低い。そこで、減速時には、振動の強度値ＶＶ及び動力伝達効率ＰＴＥに代えて、フューエルカットの有無及び加速度Ｇに対して報酬ｒを与えることで、急な減速を抑えつつ、適切にフューエルカット制御を実行できる。

（５）上記実施形態によれば、アクセル操作量ＡＣＣＰが８１％以上である領域は、学習しない領域ＮＬである。アクセル操作量ＡＣＣＰが相応に大きい場合には、ロックアップクラッチ４２を解放状態とする場合が多いため、動力伝達効率ＰＴＥを算出しても「０」と算出される。このような場合に学習が進んで、動力伝達効率ＰＴＥに基づいてロックアップクラッチ４２に対する油圧指令値Ｐ＊の学習が特異な状況に適合されることを回避できる。

（６）上記実施形態によれば、車速Ｖが１０ｋｍ／ｈ以下である領域は、学習しない領域ＮＬである。車速Ｖが相応に小さい場合には、ロックアップクラッチ４２を解放状態とする場合が多いため、動力伝達効率ＰＴＥを算出しても「０」と算出される。このような場合に学習が進んで、動力伝達効率ＰＴＥに基づいてロックアップクラッチ４２に対する油圧指令値Ｐ＊の学習が特異な状況に適合されることを回避できる。

（７）上記実施形態によれば、ロックアップクラッチ４２に対する油圧指令値Ｐ＊を算出するうえで、ベース値Ｐｂａ＊は、エンジン水温Ｔｗが小さいほど大きい値となるように補正される。エンジン水温Ｔｗが大きいほど、ロックアップクラッチ４２の入力側の回転速度が大きくなる。そのため、ロックアップクラッチ４２をスリップ状態としたときに、同一の油圧指令値Ｐ＊であっても、エンジン水温Ｔｗが大きいほど、ロックアップクラッチ４２の出力側の回転速度が、過度に大きくなる虞がある。そこで、エンジン水温Ｔｗが大きいほど、ベース値Ｐｂａ＊を小さい値となるように補正することで、ロックアップクラッチ４２の入力側と出力側との回転速度の差を大きくできる。その結果、ロックアップクラッチ４２の入力側の回転速度が大きくなっても、ロックアップクラッチ４２の出力側の回転速度が過度に大きくなることを抑制できる。

（変更例について）
なお、上記実施形態は、以下のように変更して実施することができる。上記実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。

・上記実施形態において、関係規定データＤＲに基づく行動変数の値の選択に用いられる車両ＶＣの状態ｓは、上記実施形態において例示したものに限られない。例えば、内燃機関１０の負荷が含まれていてもよい。

・上記実施形態における行動変数は、ロックアップクラッチ４２に供給するオイルの圧力である油圧指令値Ｐ＊の補正値ΔＰに限られない。例えば、行動変数が、油圧指令値Ｐ＊そのものや、ソレノイドバルブへの通電電流Ｉの指令値や、指令値の変化速度であってもよい。これらの場合であっても、行動変数によって直接的又は間接的に油圧指令値Ｐ＊が定まることには違いない。

・関係規定データＤＲについて、上記実施形態では、行動価値関数Ｑを、テーブル形式の関数としたが、これに限られない。例えば、関数近似器を用いてもよい。
・また例えば、関係規定データＤＲについて、行動価値関数Ｑを用いる代わりに、方策πを、状態ｓ及び行動ａを独立変数とし、行動ａをとる確率を従属変数とする関数近似器にて表現し、関数近似器を定めるパラメータを、報酬ｒに応じて更新してもよい。

・上記実施形態において、更新処理として方策オフ型ＴＤ法であるいわゆるＱ学習を例示したが、これに限られない。例えば、方策オン型ＴＤ法であるいわゆるＳＡＲＳＡ法によるものであってもよい。もっとも、ＴＤ法によるものに限らず、例えば、モンテカルロ法を用いたり、適格度トレース法を用いたりしてもよい。

・また例えば、更新写像は、行動価値関数Ｑと方策πとのうちのいずれか一方のみを、報酬ｒによる直接の更新対象とするものに限られない。例えば、アクター・クリティック法のように、行動価値関数Ｑ及び方策πをそれぞれ更新してもよい。また、アクター・クリティック法においては、これに限らず、例えば行動価値関数Ｑに代えて価値関数を更新対象としてもよい。

・上記実施形態において、加速度Ｇ及びフューエルカットの有無を車両ＶＣの特性ｃとして算出する報酬ｒを用いた学習処理を省いてもよい。すなわち、動力伝達効率ＰＴＥと、振動の強度値ＶＶと、を車両ＶＣの特性ｃとして算出する報酬ｒを用いた学習処理が行われるのであれば他の学習処理は必須でない。なお、加速度Ｇ及びフューエルカットの有無を車両ＶＣの特性ｃとして算出する報酬ｒを用いた学習処理を省く場合、加速度Ｇが「０」未満の場合には学習を行わずに、補正値ΔＰが一定値に固定されていてもよいし、加速度Ｇが「０」以上の場合と同様に学習をしてもよい。さらに、加速度Ｇが「０」未満の場合に、学習を行わない場合や、加速度Ｇが「０」以上の場合と同様に学習する場合には、第２関係規定データＤＲ２を省いてもよい。

・動力伝達効率ＰＴＥ及び振動の強度値ＶＶに加えて他の車両ＶＣの特性ｃに基づいて報酬ｒを算出して、学習処理を行ってもよい。他の車両ＶＣの特性ｃとしては、車両ＶＣの騒音量、すなわち車両ＶＣ内での音量の大きさなどが挙げられる。

・上記実施形態において、加速度Ｇが「０」未満の場合であっても、振動の強度値ＶＶに応じた報酬ｒ２を算出する報酬算出処理を行ってもよい。
・振動の強度値ＶＶとして、上記実施形態では、パワースペクトルを用いているが、振動の強度を示す値であればよく、例えば、車両の前後方向の振動の振幅であってもよい。

また例えば、振動の強度値ＶＶは、パワースペクトルから、予め定められた振動による分を差し引いた値としてもよい。具体的には、ＣＰＵ７２は、車両ＶＣを、予め凹凸が一定の路面を走行する際に、学習処理を行うとする。この場合、加速度Ｇは、路面の凹凸による影響を受ける。そこで、ＣＰＵ７２は、学習処理を行う前に、ロックアップクラッチ４２を解放状態とした状態で、当該路面を走行させて、路面の凹凸によって変化する加速度Ｇの時系列データを、記憶装置７６に予め記憶させる。その後、車両ＶＣが同じ路面をロックアップクラッチ４２の制御処理をしつつ走行することにより、ＣＰＵ７２は、ロックアップクラッチ４２を通じて内燃機関１０に起因する振動と、路面の凹凸による振動とによって変化する加速度Ｇの時系列データを取得する。そして、ＣＰＵ７２は、この時系列データから、予め取得したロックアップクラッチ４２が解放状態とした場合の時系列データを減算する。その後、ＣＰＵ７２は、減算した後の加速度Ｇの時系列データを基に強度値ＶＶを算出すれば、路面の凹凸の影響を排除した振動の強度値ＶＶを参照することができる。

・車両の前後方向の振動としては、上記実施形態では、サージ振動を例示したが、これに限られない。例えば、特定の周波数で発生する車両ＶＣの前後方向の振動であってもよく、特定の周波数は、１０Ｈｚより大きくてもよい。すなわち、車両ＶＣに故障が生じていない正常な状態において、当該車両ＶＣに発生し得る振動の周波数帯域や強度の範囲を逸脱した振動であれば、異常振動であるとみなせる。そして、異常振動であるとみなした振動に特有な周波数の強度値ＶＶを、関係規定データＤＲの学習に用いればよい。

・上記実施形態において、Ｓ３０において判定する学習領域の分け方は、上記実施形態の例に限られない。例えば、アクセル操作量ＡＣＣＰ及び車速Ｖに加えて、自動変速機５０の作業油の温度毎に分けられていてもよい。

・上記実施形態において、Ｓ３２の処理を行う領域は、異常振動が発生しやすい領域が予め把握できる場合には、異常振動が発生しやすい領域についてのみ学習してもよい。例えば、サージ振動の場合であれば、比較的に低回転で高トルクの場合に発生しやすい。そのため、図４における領域Ａ４～Ａ６や、領域Ｂ５～Ｂ６、領域Ｃ６でのみ学習処理がなされてもよい。

・上記実施形態において、Ｓ３２の処理を省いてもよい。すなわち、全ての領域において、更新処理を行ってもよい。
・上記実施形態では、ロックアップクラッチの制御装置として、車両ＶＣを制御する制御装置７０を例示したが、これに限られない。例えば、車両ＶＣの外部に制御装置を備える車両ＶＣ用の制御システムにおいて、当該車両ＶＣの外部の制御装置が、Ｓ２０の学習処理を実行してもよい。このような車両ＶＣの外部の制御装置は、例えば、車両ＶＣからデータを取得できればよく、データ解析センターや、ユーザの携帯端末等であってもよい。

・実行装置は、ＣＰＵ７２と、ＲＯＭ７４とを備えて、ソフトウェア処理を実行するものに限られない。例えば、上記実施形態においてソフトウェア処理されたものの少なくとも一部を、ハードウェア処理する例えばＡＳＩＣ等の専用のハードウェア回路を備えていてもよい。すなわち、実行装置は、以下の（ａ）～（ｃ）のいずれかの構成であればよい。（ａ）上記処理の全てを、プログラムに従って実行する処理装置と、プログラムを記憶するＲＯＭ等のプログラム格納装置とを備える。（ｂ）上記処理の一部をプログラムに従って実行する処理装置およびプログラム格納装置と、残りの処理を実行する専用のハードウェア回路とを備える。（ｃ）上記処理の全てを実行する専用のハードウェア回路を備える。ここで、処理装置およびプログラム格納装置を備えたソフトウェア実行装置や、専用のハードウェア回路は複数であってもよい。

・コンピュータとしては、ＣＰＵ７２に限らない。たとえば、車両ＶＣの出荷前の関係規定データＤＲを生成するためのコンピュータと、車両ＶＣに搭載されるＣＰＵ７２とであってもよい。ちなみに、車両の出荷前の関係規定データＤＲの生成処理においては、車両が存在せず、テストベンチにて内燃機関１０等を稼働させて車両の走行を模擬することによって、車両の状態を疑似的に生成し、センサの検出値等によって疑似的に生成された車両の状態を把握しつつ強化学習に用いてもよい。その場合、疑似的に生成された車両の状態を、センサの検出値に基づく車両の状態とみなす。

・上記実施形態では、関係規定データＤＲが記憶される記憶装置７６と、学習プログラムＤＰＬが記憶されるＲＯＭ７４とを別の記憶装置としたが、これに限らない。
・車両ＶＣとしては、駆動源として、モータジェネレータを備えるものであってもよい。

１０…内燃機関
４０…トルクコンバータ
４２…ロックアップクラッチ
７０…制御装置
７２…ＣＰＵ
７４…ＲＯＭ
７６…記憶装置
ＤＲ…関係規定データ
Ｐ＊…油圧指令値
ＶＣ…車両

Claims

ロックアップクラッチを内蔵するトルクコンバータを備える車両に適用され、
前記ロックアップクラッチの油圧指令値を制御する制御装置であって、
記憶装置と、実行装置と、を備え、
前記記憶装置には、前記車両の状態と前記ロックアップクラッチの操作に関する変数である行動変数との関係を規定するためのデータである関係規定データが記憶されており、
前記実行装置は、
センサの検出値に基づく前記車両の状態を取得する状態取得処理と、
前記状態取得処理によって取得された前記車両の状態と前記関係規定データとに基づき前記行動変数を算出し、算出した前記行動変数によって定まる前記油圧指令値になるように前記ロックアップクラッチを操作する操作処理と、
前記操作処理において前記ロックアップクラッチが操作された際の前記車両の特性を取得する特性取得処理と、
前記特性取得処理によって取得された前記車両の特性が所定の基準を満たす場合に満たさない場合よりも大きい報酬を与える報酬算出処理と、
前記状態取得処理によって取得された前記車両の状態、前記ロックアップクラッチの操作に用いられた前記行動変数の値、及び該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、
を実行し、
前記更新写像は、前記関係規定データに従って前記ロックアップクラッチが操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものであり、
前記車両の特性には、前記ロックアップクラッチにおける入力側の動力が出力側に伝達する効率を示す動力伝達効率と、前記車両の前後方向の振動の強度を示す値と、を含む
ロックアップクラッチの制御装置。