JP2022077245A - ロックアップクラッチの制御装置 - Google Patents
ロックアップクラッチの制御装置 Download PDFInfo
- Publication number
- JP2022077245A JP2022077245A JP2020188009A JP2020188009A JP2022077245A JP 2022077245 A JP2022077245 A JP 2022077245A JP 2020188009 A JP2020188009 A JP 2020188009A JP 2020188009 A JP2020188009 A JP 2020188009A JP 2022077245 A JP2022077245 A JP 2022077245A
- Authority
- JP
- Japan
- Prior art keywords
- vehicle
- lockup clutch
- state
- value
- cpu
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Control Of Fluid Gearings (AREA)
Abstract
【課題】ロックアップクラッチに供給される油圧と車両の異常振動との関係について、車両の振動を小さくできる好適なマップを作成するためには、熟練者が多くの工数をかける必要がある。【解決手段】CPUは、車両の状態sを取得する状態取得処理を行う(S12)。CPUは、車両の状態sと関係規定データに基づき行動変数aを算出する(S14)。CPUは、算出した行動変数aによって定まる油圧指令値P*になるように、ロックアップクラッチを操作する(S16)。CPUは、車両の特性cとして、動力伝達効率PTE及び振動の強度値VVを取得する(S18)。CPUは、車両の特性cが所定の基準を満たす場合に満たさない場合よりも大きい報酬を与えることによって関係規定データの行動価値関数を更新する(S20)。【選択図】図2
Description
本発明は、ロックアップクラッチの制御装置に関する。
特許文献1に記載の車両は、トルクコンバータを備えている。トルクコンバータは、入力側部材と出力側部材とを直接機械的に連結可能なロックアップクラッチを備えている。ロックアップクラッチの状態は、供給される油圧によって、係合状態、スリップ状態及び解放状態のいずれかに制御される。ロックアップクラッチに供給される油圧は、車両に異常振動が生じないように、予め定められたマップに基づいて制御されている。
特許文献1に記載の車両において、ロックアップクラッチに供給される油圧と車両の異常振動との関係は、必ずしも単純な関係になるとは限らないし、他のパラメータによっても影響を受け得る。したがって、車両の振動を小さくできる好適なマップを作成するためには、熟練者が多くの工数をかける必要がある。
上記課題を解決するため、本発明は、ロックアップクラッチを内蔵するトルクコンバータを備える車両に適用され、前記ロックアップクラッチの油圧指令値を制御する制御装置であって、記憶装置と、実行装置と、を備え、前記記憶装置には、前記車両の状態と前記ロックアップクラッチの操作に関する変数である行動変数との関係を規定するためのデータである関係規定データが記憶されており、前記実行装置は、センサの検出値に基づく前記車両の状態を取得する状態取得処理と、前記状態取得処理によって取得された前記車両の状態と前記関係規定データとに基づき前記行動変数を算出し、算出した前記行動変数によって定まる前記油圧指令値になるように前記ロックアップクラッチを操作する操作処理と、前記操作処理において前記ロックアップクラッチが操作された際の前記車両の特性を取得する特性取得処理と、前記特性取得処理によって取得された前記車両の特性が所定の基準を満たす場合に満たさない場合よりも大きい報酬を与える報酬算出処理と、前記状態取得処理によって取得された前記車両の状態、前記ロックアップクラッチの操作に用いられた前記行動変数の値、及び該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、を実行し、前記更新写像は、前記関係規定データに従って前記ロックアップクラッチが操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものであり、前記車両の特性には、前記ロックアップクラッチにおける入力側の動力が出力側に伝達する効率を示す動力伝達効率と、前記車両の前後方向の振動の強度を示す値と、を含むロックアップクラッチの制御装置である。
上記構成によれば、ロックアップクラッチの操作に伴う報酬に基づき、強化学習に従った更新写像によって関係規定データを更新する。このことにより、車両の状態と行動変数との関係を適切に設定できる。したがって、車両の状態と行動変数との関係の設定に際して、必ずしも熟練者の手を煩わせることはない。
ここで、更新写像の入力には、車両の前後方向の振動の強度を示す値だけでなく、ロックアップクラッチの動力伝達効率を含んでいる。そのため、車両の振動のうち、例えば内燃機関の失火等に由来する振動の強度が所定の条件を満たす場合だけでなく動力伝達効率が所定の条件を満たす場合にも大きい報酬が与えられるように学習する。その結果、ロックアップクラッチの操作に関する変数である行動変数を、振動の強度を示す値及び動力伝達効率が共に適切な値となるように規定した関係規定データを得られる。すなわち、高い動力伝達効率を確保しつつも異常振動の発生を抑制できるという複雑な関係規定データを、簡便に得ることができる。
以下、ロックアップクラッチの制御装置の一実施形態について図面を参照して説明する。
(車両の全体構成)
先ず、ロックアップクラッチの制御装置が適用される車両の全体構成について説明する。
(車両の全体構成)
先ず、ロックアップクラッチの制御装置が適用される車両の全体構成について説明する。
図1に示すように、車両VCには、内燃機関10が搭載されている。内燃機関10は、外気を吸入するための吸気通路12を備えている。吸気通路12には、弁開度の変更を通じて吸入空気量を調整するスロットルバルブ14が収容されている。
吸気通路12のスロットルバルブ14よりも下流側は、吸気ポート16を介して気筒18に接続されている。吸気通路12のスロットルバルブ14よりも下流側には、吸気ポート16に燃料を噴射する燃料噴射弁20が取り付けられている。
気筒18の内部には、気筒18内で往復運動するピストン22が収容されている。気筒18内には、ピストン22によって、燃焼室Rが区画されている。気筒18には、排気ポート24を介して、排気通路26が接続されている。排気通路26には、排気中の一酸化炭素や窒素酸化物等を浄化するための排気浄化触媒28が設けられている。
気筒18の内部において、吸気ポート16と排気ポート24との間には、燃料を点火するための点火プラグ30が配置されている。また、内燃機関10は、吸気ポート16の燃焼室R側の開口を開閉するための吸気バルブ32と、排気ポート24の燃焼室R側の開口を開閉するための排気バルブ34とを備えている。
なお、図1では、気筒18及びこれに接続された吸気ポート16及び排気ポート24等を1組のみ図示しているが、内燃機関10には、気筒18及びこれに接続された吸気ポート16及び排気ポート24等が複数組設けられている。
また、ピストン22には、コネクティングロッド35を介してクランク軸36が連結されている。燃料噴射弁20から燃料が噴射されるとともに吸気バルブ32が開弁されると、燃焼室Rに空燃料と空気との混合気が流入する。燃焼室Rに流入した混合気は、点火プラグ30の火花放電に伴って燃焼に供される。この燃焼によって生じたエネルギは、ピストン22を介してクランク軸36の回転エネルギに変換される。なお、燃焼に供された混合気は、排気バルブ34が開弁したときに、排気ポート24を介して排気通路26に排出される。
クランク軸36には、トルクコンバータ40の入力軸44が接続されている。トルクコンバータ40の出力軸46は、自動変速機50の入力軸52に接続されている。
詳細は省略するが、トルクコンバータ40は、流体伝達機構であり、入力軸44に接続されたポンプインペラと、自動変速機50の入力軸52に接続されているタービンインペラとを備えている。トルクコンバータ40では、流体を介してポンプインペラとタービンインペラとの間でトルク伝達が行われることにより、トルクコンバータ40の入力軸44と出力軸46との間でのトルク伝達が行われる。
詳細は省略するが、トルクコンバータ40は、流体伝達機構であり、入力軸44に接続されたポンプインペラと、自動変速機50の入力軸52に接続されているタービンインペラとを備えている。トルクコンバータ40では、流体を介してポンプインペラとタービンインペラとの間でトルク伝達が行われることにより、トルクコンバータ40の入力軸44と出力軸46との間でのトルク伝達が行われる。
また、トルクコンバータ40は、ロックアップクラッチ42を備えている。ロックアップクラッチ42は、トルクコンバータ40の入力軸44と、出力軸46とを、直結可能なクラッチである。ロックアップクラッチ42は、直結状態、解放状態、及びスリップ状態のいずれかの状態をとる。直結状態は、入力軸44と出力軸46とが直結された状態である。解放状態は、入力軸44と出力軸46との間でロックアップクラッチ42を介したトルクの伝達が略無い状態である。スリップ状態は、入力軸44と出力軸46との間でロックアップクラッチ42を介したトルクの伝達をしつつ互いに相対回転可能な状態である。ロックアップクラッチ42は、図示を省略するオイルポンプから供給されるオイルを作動油としている。作動油の圧力は、ロックアップクラッチ42の油圧制御回路によって調整される。作動油の圧力が調整されることにより、ロックアップクラッチ42は、上記3つの状態のいずれかに制御される。油圧制御回路は、ソレノイドバルブを備えており、ソレノイドバルブの通電によって、作動油の流通状態や作動油の油圧を制御する回路である。
自動変速機50は、入力軸52の回転速度と、出力軸54の回転速度との比である変速比を可変とする装置である。詳細は省略するが、自動変速機50は、複数の摩擦係合要素を備えており、これらの摩擦係合要素の係合及び解放によって、変速比が切り替わる。自動変速機50の出力軸54には、図示しないディファレンシャルギア等を介して、駆動輪60が機械的に連結されている。
車両VCには、制御装置70が備わっている。制御装置70は、内燃機関10を制御対象とし、その制御量であるトルクや排気成分比率等を制御すべく、内燃機関10の各種操作部を操作する。例えば、制御装置70は、燃料噴射弁20からの燃料噴射の停止による内燃機関10への燃料供給の停止処理であるフューエルカット制御を行う。
より具体的には、フューエルカット制御は、燃料噴射制御の一環として、例えばアクセル操作量ACCPが「0」になっている減速中に、燃料の噴射を停止して燃焼室Rへの燃料の供給を停止し、燃料消費率の低減を図る制御である。
また、制御装置70は、自動変速機50を制御対象とし、自動変速機50の変速比を制御すべく、自動変速機50の摩擦係合要素を操作する。さらに、制御装置70は、トルクコンバータ40を制御対象とし、ロックアップクラッチ42の係合状態を制御すべく、ロックアップクラッチ42を操作する。この実施形態では、制御装置70は、ロックアップクラッチ42に対する油圧指令値P*を設定する。そして、制御装置70は、この油圧指令値P*を実現するべく油圧制御回路のソレノイドバルブ等を制御することにより、ロックアップクラッチ42を操作する。なお、図1には、スロットルバルブ14、燃料噴射弁20、点火プラグ30、ロックアップクラッチ42、及び自動変速機50のそれぞれの操作信号MS1~MS5を記載している。
制御装置70は、制御量の制御のために、エアフロメータ80によって検出される吸入空気量Gaや、スロットルセンサ82によって検出されるスロットルバルブ14の開口度であるスロットル開口度TA、クランク角センサ84の出力信号Scrを参照する。また、制御装置70は、アクセルセンサ88によって検出されるアクセルペダル86の踏み込み量であるアクセル操作量ACCPや、加速度センサ90によって検出される車両VCの前後方向の加速度Gを参照する。さらに、車速センサ92によって検出される車両VCの車速Vや、水温センサ94によって検出されるエンジン水温Twを参照する。
また、制御装置70は、入力側回転速度センサ98によって検出されるトルクコンバータ40の入力軸44の回転速度RS1と、出力側回転速度センサ99によって検出されるトルクコンバータ40の出力軸46の回転速度RS2と、を参照する。
また、制御装置70は、フューエルカット制御をしているか否かを示す信号Vfcを参照する。信号Vfcは、制御装置70がフューエルカット制御を行う場合にオン状態を示し、制御装置70がフューエルカット制御を行わない場合にオフ状態を示す。なお、信号Vfcは、燃料噴射弁20の操作信号MS2に含まれており、制御装置70内にて生成される信号である。
また、制御装置70は、車両VCの前後方向の振動の強度を示す強度値VVを参照する。車両VCの前後方向の振動には、内燃機関10の駆動に起因する振動が含まれている。このような振動は、例えば、内燃機関10の失火等によって発生する車両VCの前後方向のサージ振動である。そのため、本実施形態における車両VCの前後方向の振動は、ロックアップクラッチ42が、直結状態又はスリップ状態である場合に起きうる振動である。また、サージ振動は、10Hz以下の周波数帯域で車両が揺れる現象である。強度値VVは、例えば、振動の予め定められた特定の周波数、例えば数Hzでのパワースペクトルである。制御装置70は、加速度センサ90によって検出される車両VCの前後方向の加速度Gの時系列データを、高速フーリエ変換することにより、車両VCにおける振動のエネルギを単位周波数毎に表すグラフを作成する。そして、制御装置70は、作成したグラフから、特定の周波数におけるパワースペクトルを取得する。
制御装置70は、実行装置であるCPU72及びROM74、電気的に書き換え可能な不揮発性メモリである記憶装置76、及び周辺回路78を備え、それらが内部バス79を介して通信可能とされている。ここで、周辺回路78は、内部の動作を規定するクロック信号を生成する回路や、電源回路、リセット回路等を含む。制御装置70は、ROM74に記憶されたプログラムをCPU72が実行することにより制御量を制御する。
(係合状態の制御処理について)
次に、ロックアップクラッチ42の係合状態を制御するために、制御装置70が実行する処理の手順を説明する。図2に示す処理は、ROM74に記憶されている学習プログラムDPLをCPU72が例えば所定周期で繰り返し実行することにより実現される。すなわち、CPU72は、学習プログラムDPLに従って、ロックアップクラッチ42の油圧の学習方法を実行する。なお、以下では、先頭に「S」が付与された数字によって各処理のステップ番号を表現する。
次に、ロックアップクラッチ42の係合状態を制御するために、制御装置70が実行する処理の手順を説明する。図2に示す処理は、ROM74に記憶されている学習プログラムDPLをCPU72が例えば所定周期で繰り返し実行することにより実現される。すなわち、CPU72は、学習プログラムDPLに従って、ロックアップクラッチ42の油圧の学習方法を実行する。なお、以下では、先頭に「S」が付与された数字によって各処理のステップ番号を表現する。
図2に示す一連の処理が開始されると、先ず、CPU72は、加速度センサ90によって検出される加速度Gが「0」以上か否かを判定する(S10)。そして、この判定結果に基づき、CPU72は、図1に示す記憶装置76に関係規定データDRとして記憶されている第1関係規定データDR1及び第2関係規定データDR2のうち、いずれか一方を選択する。具体的には、加速度センサ90によって検出される加速度Gが「0」以上の場合には、第1関係規定データDR1を選択する。一方で、加速度Gが「0」未満の場合には、第2関係規定データDR2を選択する。
次に、CPU72は、車両VCの状態sとしてのアクセル操作量ACCP、車速V、及びエンジン水温Twを取得する状態取得処理を行う(S12)。状態sは、図1に示す記憶装置76に記憶されている関係規定データDRによって行動変数との関係が規定される変数の値である。ここで、本実施形態では、行動変数として、ロックアップクラッチ42に供給するオイルの圧力である油圧指令値P*の補正値ΔPを例示する。
油圧指令値P*は、ベース値Pba*と補正値ΔPとの和で算出される。ベース値Pba*は、アクセル操作量ACCP、車速V、及びエンジン水温Twを入力変数とし、ベース値Pba*を出力変数とするマップデータがROM74に予め記憶されている状態で、CPU72によりマップ演算することにより算出される。
ベース値Pba*は、アクセル操作量ACCPが相応に大きい場合、又は車速Vが相応に小さい場合には、ロックアップクラッチ42が解放状態となるように、小さい値として算出される。一方で、ベース値Pba*は、アクセル操作量ACCPが相応に小さく、且つ車速Vが相応に大きい場合には、ロックアップクラッチ42が直結状態となるように、大きい値として算出される。また、ベース値Pba*は、アクセル操作量ACCP及び車速Vによっては、ロックアップクラッチ42がスリップ状態となるように算出される。ベース値Pba*は、エンジン水温Twが小さいほど大きい値となるように補正される。なお、油圧指令値P*は、変速段毎に異なるマップデータによりマップ演算される。
そして、関係規定データDRは、行動価値関数Qを含む。行動価値関数Qは、状態s及び行動aを独立変数とし、それら状態s及び行動aに対して期待される収益を従属変数とする関数である。本実施形態では、行動価値関数Qを、テーブル形式の関数とする。なお、本実施形態では、第1関係規定データDR1と第2関係規定データDR2とは異なる別のデータである。したがって、第1関係規定データDR1及び第2関係規定データDR2は、いずれも行動価値関数Qを有しているが、各関係規定データDRの行動価値関数Qは互いに連動しない独立した値である。
次に、CPU72は、関係規定データDRによって規定される方策πに基づき、行動変数の値、すなわち油圧指令値P*の補正値ΔPを算出する(S14)。本実施形態では、方策として、εグリーディ方策を例示する。すなわち、状態sが与えられたときに、独立変数が与えられた状態sとなる行動価値関数Qのうち最大となる行動であるグリーディ行動agを優先的に選択しつつも、所定の確率で、それ以外の行動を選択する規則を定める方策を例示する。具体的には、行動がとりうる値の総数を「|A|」にて表記する場合、グリーディ行動以外の行動をとる確率を、それぞれ「ε/|A|」とする。
ちなみに、本実施形態では行動価値関数Qをテーブル形式のデータとしていることに鑑み、独立変数としての状態sは、一定の幅を有するものとする。すなわち、例えばアクセル操作量ACCPについては10%間隔で行動価値関数Qを定義する場合、アクセル操作量ACCPが「3%」である場合と、「6%」である場合とは、それのみによって異なる状態sとされることはない。
次にCPU72は、油圧指令値P*をベース値Pba*と補正値ΔPとの加算によって算出し、ソレノイドバルブの通電電流Iが油圧指令値P*に基づき定まる値となるように通電電流Iを操作する操作処理を行う(S16)。
そして、CPU72は、車両VCの特性cを取得する特性取得処理を行う(S18)。本実施形態では、CPU72は、車両VCの特性cとして、動力伝達効率PTE、振動の強度値VV、フューエルカットの有無を示す信号Vfc、加速度Gを取得する。
動力伝達効率PTEは、ロックアップクラッチ42の係合状態によって、ロックアップクラッチ42の入力側の動力が、ロックアップクラッチ42の出力側に伝達する効率を示す値である。動力伝達効率PTEは、S16の処理を行った際の、ロックアップクラッチ42の入力側の回転速度RS1と、出力側の回転速度RS2との差が大きいほど小さくなる。例えば、動力伝達効率PTEが、トルクコンバータ40の入力軸44の回転速度RS1に対するトルクコンバータ40の出力軸46の回転速度RS2の割合として算出されることで、CPU72は、動力伝達効率PTEを取得する。また、動力伝達効率PTEは、ロックアップクラッチ42が解放状態である場合には「0」になる。
次にCPU72は、強化学習によって、関係規定データDRに対する学習処理を行う(S20)。CPU72は、S20の処理を完了する場合には、図2に示す一連の処理を一旦終了する。
(学習処理について)
図3に、S20の処理の詳細を示す。
図3に示す一連の処理において、CPU72は、先ず、学習領域を判定する(S30)。図4に示すように、S12の取得処理によって取得したアクセル操作量ACCP及び車速Vを入力変数とし、学習領域を出力変数とするマップデータによって、学習領域を判定する。例えば、アクセル操作量ACCPが15%で、車速Vが25km/hの場合、学習領域B3と判定される。なお、アクセル操作量ACCP及び車速Vは、小数点以下の値が四捨五入されて、学習領域を出力変数とするマップデータに入力される。
図3に、S20の処理の詳細を示す。
図3に示す一連の処理において、CPU72は、先ず、学習領域を判定する(S30)。図4に示すように、S12の取得処理によって取得したアクセル操作量ACCP及び車速Vを入力変数とし、学習領域を出力変数とするマップデータによって、学習領域を判定する。例えば、アクセル操作量ACCPが15%で、車速Vが25km/hの場合、学習領域B3と判定される。なお、アクセル操作量ACCP及び車速Vは、小数点以下の値が四捨五入されて、学習領域を出力変数とするマップデータに入力される。
次に、CPU72は、S30において判定された学習領域が学習する領域か否かを判定する(S32)。図4に示す学習領域のうち、領域NLで示す領域は、学習しない領域である。一方で、領域A1~D6で示す領域は、学習する学習領域である。なお、図4では、車速Vが50km/hよりも大きい場合については、図示を省略している。
S32において、学習する領域と判定された場合(S32:YES)、CPU72は、S10において加速度Gが「0」以上であると判定されたか、「0」未満であると判定されたかを確認する(S34)。換言すれば、CPU72は、第1関係規定データDR1を選択している状態であるか第2関係規定データDR2を選択している状態であるかを判定する。
S34において、S10での判定が肯定であると判定された場合(S34:YES)、CPU72は、動力伝達効率PTEに応じた報酬r1を算出する報酬算出処理を行う(S36)。詳しくは、CPU72は、動力伝達効率PTEが大きい場合に小さい場合よりも報酬r1を大きい値に算出する。
次に、CPU72は、振動の強度値VVに応じた報酬r2を算出する報酬算出処理を行う(S38)。詳しくは、CPU72は、強度値VVが小さい場合に大きい場合よりも報酬r2を大きい値に算出する。そして、CPU72は、S16の処理において用いた行動に対する報酬rに、報酬r1と報酬r2との和を代入する(S40)。
次に、CPU72は、CPU72は、S40の処理が完了すると、S14の処理において用いた第1関係規定データDR1の行動価値関数Q(s,a)を、報酬rに基づき更新する更新処理を行う(S42)。S14の処理において用いた行動価値関数Q(s,a)とは、S12の処理によって取得した状態sとS14の処理によって設定された行動aとを独立変数とする行動価値関数Q(s,a)のことである。
本実施形態では、方策オフ型のTD法であるいわゆるQ学習によって行動価値関数Q(s,a)を更新する。具体的には、以下の式(c1)にて行動価値関数Q(s,a)を更新する。
Q(s,a)
←Q+α・{r+γ・maxQ(s+1,A)-Q(s,a)} …(c1)
ここで、行動価値関数Q(s,a)の更新量「α・{r+γ・maxQ(s+1,A)-Q(s,a)}」には、割引率γ及び学習率αを用いている。なお、割引率γ及び学習率αは、「0」よりも大きく「1」以下の定数である。また、「maxQ(s+1,a)」は、図2に示す一連の処理の次回のS12の処理によって取得されるべき状態s+1を独立変数とする行動価値関数Qのうちの最大値を意味する。
←Q+α・{r+γ・maxQ(s+1,A)-Q(s,a)} …(c1)
ここで、行動価値関数Q(s,a)の更新量「α・{r+γ・maxQ(s+1,A)-Q(s,a)}」には、割引率γ及び学習率αを用いている。なお、割引率γ及び学習率αは、「0」よりも大きく「1」以下の定数である。また、「maxQ(s+1,a)」は、図2に示す一連の処理の次回のS12の処理によって取得されるべき状態s+1を独立変数とする行動価値関数Qのうちの最大値を意味する。
一方で、S34において、S10での判定が否定であると判定された場合(S34:NO)、CPU72は、フューエルカットの有無を示す信号Vfcに応じた報酬r3を算出する報酬算出処理を行う(S44)。詳しくは、フューエルカットの有無を示す信号Vfcがオン状態である場合にオフ状態である場合よりも報酬r3を大きい値に算出する。すなわち、報酬r3は、フューエルカット制御が行われている場合に、フューエルカット制御が行われていない場合よりも、大きな値になる。
次に、CPU72は、加速度Gに応じた報酬r4を算出する報酬算出処理を行う(S46)。詳しくは、CPU72は、加速度Gが大きい場合に小さい場合よりも報酬r4を大きい値に算出する。すなわち、急な減速の場合よりも緩やかな減速の場合に、報酬r4は大きく算出される。そして、CPU72は、S16の処理において用いた行動に対する報酬rに、報酬r3と報酬r4との和を代入する(S48)。
次に、CPU72は、S46の処理が完了すると、S14の処理において用いた第2関係規定データDR2の行動価値関数Q(s,a)を、報酬rに基づき更新する更新処理を行う(S50)。S14の処理において用いた行動価値関数Q(s,a)とは、S12の処理によって取得した状態sとS14の処理によって設定された行動aとを独立変数とする行動価値関数Q(s,a)のことである。
本実施形態では、方策オフ型のTD法であるいわゆるQ学習によって行動価値関数Q(s,a)を更新する。行動価値関数Q(s,a)の具体的な更新内容は、S42の処理と同様であるため、詳細な説明を省略する。
CPU72は、S42の処理、又はS50の処理が完了する場合、図3に示す一連の処理を一旦終了する。ちなみに、車両VCの出荷時における関係規定データDRは、車両VCと同一の仕様の試作車等において図2の処理と同様の処理によって学習がなされたデータとする。すなわち、図2の処理は、車両VCの出荷前に設定された油圧指令値P*を、車両VCが実際に道路を走行する際に適切な値に強化学習によって更新するための処理である。なお、CPU72は、学習しない領域であった場合(S32:NO)、図3に示す一連の処理を一旦終了する。
(実施形態の作用について)
次に、上記実施形態の作用を説明する。
上記実施形態において、CPU72は、ロックアップクラッチ42に対する油圧指令値P*を算出するうえで、グリーディ行動agを選択してソレノイドバルブの通電電流Iを操作しつつも、所定の確率でグリーディ行動以外の行動を用いてよりよい油圧指令値P*を探索する。そして、CPU72は、油圧指令値P*を定めるために利用した行動価値関数QをQ学習によって更新する。
次に、上記実施形態の作用を説明する。
上記実施形態において、CPU72は、ロックアップクラッチ42に対する油圧指令値P*を算出するうえで、グリーディ行動agを選択してソレノイドバルブの通電電流Iを操作しつつも、所定の確率でグリーディ行動以外の行動を用いてよりよい油圧指令値P*を探索する。そして、CPU72は、油圧指令値P*を定めるために利用した行動価値関数QをQ学習によって更新する。
(実施形態の効果について)
次に、上記実施形態の効果を説明する。
(1)上記実施形態によれば、油圧指令値P*を定めるために利用した行動価値関数QをQ学習によって更新するので、当該学習処理により、アクセル操作量ACCP及び車速Vと油圧指令値P*の補正値ΔPとの関係を適切に設定できる。そして、この一連の学習処理においては、必ずしも熟練者の手を煩わせることはないので、比較的に簡便にアクセル操作量ACCP及び車速Vと油圧指令値P*の補正値ΔPとの関係を規定できる。
次に、上記実施形態の効果を説明する。
(1)上記実施形態によれば、油圧指令値P*を定めるために利用した行動価値関数QをQ学習によって更新するので、当該学習処理により、アクセル操作量ACCP及び車速Vと油圧指令値P*の補正値ΔPとの関係を適切に設定できる。そして、この一連の学習処理においては、必ずしも熟練者の手を煩わせることはないので、比較的に簡便にアクセル操作量ACCP及び車速Vと油圧指令値P*の補正値ΔPとの関係を規定できる。
特に、上記実施形態においては、車両VCの特性cには、車両VCの前後方向の振動の強度を示す値である強度値VVだけでなく、動力伝達効率PTEが含まれている。動力伝達効率PTEは、ロックアップクラッチ42が、ロックアップクラッチ42として成立するために極めて重要なパラメータである。上記実施形態では、動力伝達効率PTEが可能な限り大きくなる一方で、振動の強度値VVが可能な限り小さくなるように、油圧指令値P*が算出される。その結果、ロックアップクラッチ42が本来の機能を失うことなく、振動の強度値VVが小さくなるように、油圧指令値P*が設定される。すなわち、高い動力伝達効率を確保しつつも異常振動の発生を抑制できるという複雑な関係規定データDRを、簡便に得ることができる。
(2)上記実施形態によれば、加速度Gが「0」以上の場合には、動力伝達効率PTE及び振動の強度値VVに対して、報酬rを与える。振動の強度値VVは、内燃機関10由来の振動を検知する値であるため、加速度Gが「0」以上の場合に、相応に大きくなる。このように内燃機関10に由来して車両VCの前後方向の振動が発生し得る状況下で、振動の強度値VVに関する報酬rを与えることで、異常振動の抑制に関する学習効果を高めることができる。
(3)上記実施形態によれば、加速度Gが「0」未満の場合には、フューエルカット制御の有無及び加速度Gに対して、報酬rを与える。車両VCが減速している場合には、ロックアップクラッチ42が解放状態である、すなわちロックアップクラッチ42を介した動力伝達効率PTEが「0」である場合があり得る。また、減速中には内燃機関10の負荷が小さかったり、ロックアップクラッチ42が解放状態であったりするので、内燃機関10の失火等によって、車両VCの前後方向に大きな振動が発生する可能性は低い。つまり、減速時には、動力伝達効率PTEを大きくしたり、振動の強度値VVを小さくしたりする必要性が低い。そこで、減速時には、振動の強度値VV及び動力伝達効率PTEに代えて、フューエルカットの有無及び加速度Gに対して報酬rを与えることで、急な減速を抑えつつ、適切にフューエルカット制御を実行できる。
(5)上記実施形態によれば、アクセル操作量ACCPが81%以上である領域は、学習しない領域NLである。アクセル操作量ACCPが相応に大きい場合には、ロックアップクラッチ42を解放状態とする場合が多いため、動力伝達効率PTEを算出しても「0」と算出される。このような場合に学習が進んで、動力伝達効率PTEに基づいてロックアップクラッチ42に対する油圧指令値P*の学習が特異な状況に適合されることを回避できる。
(6)上記実施形態によれば、車速Vが10km/h以下である領域は、学習しない領域NLである。車速Vが相応に小さい場合には、ロックアップクラッチ42を解放状態とする場合が多いため、動力伝達効率PTEを算出しても「0」と算出される。このような場合に学習が進んで、動力伝達効率PTEに基づいてロックアップクラッチ42に対する油圧指令値P*の学習が特異な状況に適合されることを回避できる。
(7)上記実施形態によれば、ロックアップクラッチ42に対する油圧指令値P*を算出するうえで、ベース値Pba*は、エンジン水温Twが小さいほど大きい値となるように補正される。エンジン水温Twが大きいほど、ロックアップクラッチ42の入力側の回転速度が大きくなる。そのため、ロックアップクラッチ42をスリップ状態としたときに、同一の油圧指令値P*であっても、エンジン水温Twが大きいほど、ロックアップクラッチ42の出力側の回転速度が、過度に大きくなる虞がある。そこで、エンジン水温Twが大きいほど、ベース値Pba*を小さい値となるように補正することで、ロックアップクラッチ42の入力側と出力側との回転速度の差を大きくできる。その結果、ロックアップクラッチ42の入力側の回転速度が大きくなっても、ロックアップクラッチ42の出力側の回転速度が過度に大きくなることを抑制できる。
(変更例について)
なお、上記実施形態は、以下のように変更して実施することができる。上記実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
なお、上記実施形態は、以下のように変更して実施することができる。上記実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
・上記実施形態において、関係規定データDRに基づく行動変数の値の選択に用いられる車両VCの状態sは、上記実施形態において例示したものに限られない。例えば、内燃機関10の負荷が含まれていてもよい。
・上記実施形態における行動変数は、ロックアップクラッチ42に供給するオイルの圧力である油圧指令値P*の補正値ΔPに限られない。例えば、行動変数が、油圧指令値P*そのものや、ソレノイドバルブへの通電電流Iの指令値や、指令値の変化速度であってもよい。これらの場合であっても、行動変数によって直接的又は間接的に油圧指令値P*が定まることには違いない。
・関係規定データDRについて、上記実施形態では、行動価値関数Qを、テーブル形式の関数としたが、これに限られない。例えば、関数近似器を用いてもよい。
・また例えば、関係規定データDRについて、行動価値関数Qを用いる代わりに、方策πを、状態s及び行動aを独立変数とし、行動aをとる確率を従属変数とする関数近似器にて表現し、関数近似器を定めるパラメータを、報酬rに応じて更新してもよい。
・また例えば、関係規定データDRについて、行動価値関数Qを用いる代わりに、方策πを、状態s及び行動aを独立変数とし、行動aをとる確率を従属変数とする関数近似器にて表現し、関数近似器を定めるパラメータを、報酬rに応じて更新してもよい。
・上記実施形態において、更新処理として方策オフ型TD法であるいわゆるQ学習を例示したが、これに限られない。例えば、方策オン型TD法であるいわゆるSARSA法によるものであってもよい。もっとも、TD法によるものに限らず、例えば、モンテカルロ法を用いたり、適格度トレース法を用いたりしてもよい。
・また例えば、更新写像は、行動価値関数Qと方策πとのうちのいずれか一方のみを、報酬rによる直接の更新対象とするものに限られない。例えば、アクター・クリティック法のように、行動価値関数Q及び方策πをそれぞれ更新してもよい。また、アクター・クリティック法においては、これに限らず、例えば行動価値関数Qに代えて価値関数を更新対象としてもよい。
・上記実施形態において、加速度G及びフューエルカットの有無を車両VCの特性cとして算出する報酬rを用いた学習処理を省いてもよい。すなわち、動力伝達効率PTEと、振動の強度値VVと、を車両VCの特性cとして算出する報酬rを用いた学習処理が行われるのであれば他の学習処理は必須でない。なお、加速度G及びフューエルカットの有無を車両VCの特性cとして算出する報酬rを用いた学習処理を省く場合、加速度Gが「0」未満の場合には学習を行わずに、補正値ΔPが一定値に固定されていてもよいし、加速度Gが「0」以上の場合と同様に学習をしてもよい。さらに、加速度Gが「0」未満の場合に、学習を行わない場合や、加速度Gが「0」以上の場合と同様に学習する場合には、第2関係規定データDR2を省いてもよい。
・動力伝達効率PTE及び振動の強度値VVに加えて他の車両VCの特性cに基づいて報酬rを算出して、学習処理を行ってもよい。他の車両VCの特性cとしては、車両VCの騒音量、すなわち車両VC内での音量の大きさなどが挙げられる。
・上記実施形態において、加速度Gが「0」未満の場合であっても、振動の強度値VVに応じた報酬r2を算出する報酬算出処理を行ってもよい。
・振動の強度値VVとして、上記実施形態では、パワースペクトルを用いているが、振動の強度を示す値であればよく、例えば、車両の前後方向の振動の振幅であってもよい。
・振動の強度値VVとして、上記実施形態では、パワースペクトルを用いているが、振動の強度を示す値であればよく、例えば、車両の前後方向の振動の振幅であってもよい。
また例えば、振動の強度値VVは、パワースペクトルから、予め定められた振動による分を差し引いた値としてもよい。具体的には、CPU72は、車両VCを、予め凹凸が一定の路面を走行する際に、学習処理を行うとする。この場合、加速度Gは、路面の凹凸による影響を受ける。そこで、CPU72は、学習処理を行う前に、ロックアップクラッチ42を解放状態とした状態で、当該路面を走行させて、路面の凹凸によって変化する加速度Gの時系列データを、記憶装置76に予め記憶させる。その後、車両VCが同じ路面をロックアップクラッチ42の制御処理をしつつ走行することにより、CPU72は、ロックアップクラッチ42を通じて内燃機関10に起因する振動と、路面の凹凸による振動とによって変化する加速度Gの時系列データを取得する。そして、CPU72は、この時系列データから、予め取得したロックアップクラッチ42が解放状態とした場合の時系列データを減算する。その後、CPU72は、減算した後の加速度Gの時系列データを基に強度値VVを算出すれば、路面の凹凸の影響を排除した振動の強度値VVを参照することができる。
・車両の前後方向の振動としては、上記実施形態では、サージ振動を例示したが、これに限られない。例えば、特定の周波数で発生する車両VCの前後方向の振動であってもよく、特定の周波数は、10Hzより大きくてもよい。すなわち、車両VCに故障が生じていない正常な状態において、当該車両VCに発生し得る振動の周波数帯域や強度の範囲を逸脱した振動であれば、異常振動であるとみなせる。そして、異常振動であるとみなした振動に特有な周波数の強度値VVを、関係規定データDRの学習に用いればよい。
・上記実施形態において、S30において判定する学習領域の分け方は、上記実施形態の例に限られない。例えば、アクセル操作量ACCP及び車速Vに加えて、自動変速機50の作業油の温度毎に分けられていてもよい。
・上記実施形態において、S32の処理を行う領域は、異常振動が発生しやすい領域が予め把握できる場合には、異常振動が発生しやすい領域についてのみ学習してもよい。例えば、サージ振動の場合であれば、比較的に低回転で高トルクの場合に発生しやすい。そのため、図4における領域A4~A6や、領域B5~B6、領域C6でのみ学習処理がなされてもよい。
・上記実施形態において、S32の処理を省いてもよい。すなわち、全ての領域において、更新処理を行ってもよい。
・上記実施形態では、ロックアップクラッチの制御装置として、車両VCを制御する制御装置70を例示したが、これに限られない。例えば、車両VCの外部に制御装置を備える車両VC用の制御システムにおいて、当該車両VCの外部の制御装置が、S20の学習処理を実行してもよい。このような車両VCの外部の制御装置は、例えば、車両VCからデータを取得できればよく、データ解析センターや、ユーザの携帯端末等であってもよい。
・上記実施形態では、ロックアップクラッチの制御装置として、車両VCを制御する制御装置70を例示したが、これに限られない。例えば、車両VCの外部に制御装置を備える車両VC用の制御システムにおいて、当該車両VCの外部の制御装置が、S20の学習処理を実行してもよい。このような車両VCの外部の制御装置は、例えば、車両VCからデータを取得できればよく、データ解析センターや、ユーザの携帯端末等であってもよい。
・実行装置は、CPU72と、ROM74とを備えて、ソフトウェア処理を実行するものに限られない。例えば、上記実施形態においてソフトウェア処理されたものの少なくとも一部を、ハードウェア処理する例えばASIC等の専用のハードウェア回路を備えていてもよい。すなわち、実行装置は、以下の(a)~(c)のいずれかの構成であればよい。(a)上記処理の全てを、プログラムに従って実行する処理装置と、プログラムを記憶するROM等のプログラム格納装置とを備える。(b)上記処理の一部をプログラムに従って実行する処理装置およびプログラム格納装置と、残りの処理を実行する専用のハードウェア回路とを備える。(c)上記処理の全てを実行する専用のハードウェア回路を備える。ここで、処理装置およびプログラム格納装置を備えたソフトウェア実行装置や、専用のハードウェア回路は複数であってもよい。
・コンピュータとしては、CPU72に限らない。たとえば、車両VCの出荷前の関係規定データDRを生成するためのコンピュータと、車両VCに搭載されるCPU72とであってもよい。ちなみに、車両の出荷前の関係規定データDRの生成処理においては、車両が存在せず、テストベンチにて内燃機関10等を稼働させて車両の走行を模擬することによって、車両の状態を疑似的に生成し、センサの検出値等によって疑似的に生成された車両の状態を把握しつつ強化学習に用いてもよい。その場合、疑似的に生成された車両の状態を、センサの検出値に基づく車両の状態とみなす。
・上記実施形態では、関係規定データDRが記憶される記憶装置76と、学習プログラムDPLが記憶されるROM74とを別の記憶装置としたが、これに限らない。
・車両VCとしては、駆動源として、モータジェネレータを備えるものであってもよい。
・車両VCとしては、駆動源として、モータジェネレータを備えるものであってもよい。
10…内燃機関
40…トルクコンバータ
42…ロックアップクラッチ
70…制御装置
72…CPU
74…ROM
76…記憶装置
DR…関係規定データ
P*…油圧指令値
VC…車両
40…トルクコンバータ
42…ロックアップクラッチ
70…制御装置
72…CPU
74…ROM
76…記憶装置
DR…関係規定データ
P*…油圧指令値
VC…車両
Claims (1)
- ロックアップクラッチを内蔵するトルクコンバータを備える車両に適用され、
前記ロックアップクラッチの油圧指令値を制御する制御装置であって、
記憶装置と、実行装置と、を備え、
前記記憶装置には、前記車両の状態と前記ロックアップクラッチの操作に関する変数である行動変数との関係を規定するためのデータである関係規定データが記憶されており、
前記実行装置は、
センサの検出値に基づく前記車両の状態を取得する状態取得処理と、
前記状態取得処理によって取得された前記車両の状態と前記関係規定データとに基づき前記行動変数を算出し、算出した前記行動変数によって定まる前記油圧指令値になるように前記ロックアップクラッチを操作する操作処理と、
前記操作処理において前記ロックアップクラッチが操作された際の前記車両の特性を取得する特性取得処理と、
前記特性取得処理によって取得された前記車両の特性が所定の基準を満たす場合に満たさない場合よりも大きい報酬を与える報酬算出処理と、
前記状態取得処理によって取得された前記車両の状態、前記ロックアップクラッチの操作に用いられた前記行動変数の値、及び該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、
を実行し、
前記更新写像は、前記関係規定データに従って前記ロックアップクラッチが操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものであり、
前記車両の特性には、前記ロックアップクラッチにおける入力側の動力が出力側に伝達する効率を示す動力伝達効率と、前記車両の前後方向の振動の強度を示す値と、を含む
ロックアップクラッチの制御装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020188009A JP2022077245A (ja) | 2020-11-11 | 2020-11-11 | ロックアップクラッチの制御装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020188009A JP2022077245A (ja) | 2020-11-11 | 2020-11-11 | ロックアップクラッチの制御装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022077245A true JP2022077245A (ja) | 2022-05-23 |
Family
ID=81654187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020188009A Pending JP2022077245A (ja) | 2020-11-11 | 2020-11-11 | ロックアップクラッチの制御装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022077245A (ja) |
-
2020
- 2020-11-11 JP JP2020188009A patent/JP2022077245A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6809587B1 (ja) | 車両用制御装置 | |
KR101394803B1 (ko) | 차량 제어 시스템 및 차량 제어 방법 | |
US20210115866A1 (en) | Method of generating vehicle control data, vehicle control device, and vehicle control system | |
JP2021066240A (ja) | 車両用制御装置、車両用制御システム、および車両用学習装置 | |
JP2022007027A (ja) | 車両用制御装置、車両用制御システム、および車両用学習装置 | |
JP2021067201A (ja) | 車両用制御装置、車両用制御システム、および車両用学習装置 | |
JP5059247B2 (ja) | 変速制御装置、ハイブリッド自動車、および変速制御方法、並びにプログラム | |
JP2021067192A (ja) | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 | |
JP7207290B2 (ja) | 車両用制御装置、車両用制御システム、車両用学習装置、および車両用学習方法 | |
JP2021110276A (ja) | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 | |
JP2021127753A (ja) | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 | |
JP2021110277A (ja) | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 | |
JP2019060270A (ja) | 内燃機関の制御装置 | |
CN113175385A (zh) | 内燃机的控制装置以及控制方法 | |
JP2021127070A (ja) | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 | |
JP2022077245A (ja) | ロックアップクラッチの制御装置 | |
JP2022045712A (ja) | ロックアップクラッチの制御装置 | |
JP2021067257A (ja) | 車両用制御装置、車両用制御システム、および車両用学習装置 | |
JP2021124044A (ja) | 車両制御方法、車両用制御装置及びサーバ | |
JP2009185738A (ja) | 車両制御装置および車両制御方法 | |
JP2005188335A (ja) | 車載エンジンの制御装置 | |
US11597380B2 (en) | Control device and control method for vehicle drive unit | |
EP1467077B1 (en) | Method for controlling the speed of a torque-controlled internal combustion engine | |
JP2021067261A (ja) | 車両用制御装置、車両用制御システム、および車両用学習装置 | |
JP2021066417A (ja) | 車両用制御装置、車両用制御システム、および車両用学習装置 |