JP2022007027A - 車両用制御装置、車両用制御システム、および車両用学習装置 - Google Patents
車両用制御装置、車両用制御システム、および車両用学習装置 Download PDFInfo
- Publication number
- JP2022007027A JP2022007027A JP2020109675A JP2020109675A JP2022007027A JP 2022007027 A JP2022007027 A JP 2022007027A JP 2020109675 A JP2020109675 A JP 2020109675A JP 2020109675 A JP2020109675 A JP 2020109675A JP 2022007027 A JP2022007027 A JP 2022007027A
- Authority
- JP
- Japan
- Prior art keywords
- value
- drive system
- vehicle
- cpu
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005856 abnormality Effects 0.000 claims abstract description 30
- 230000005540 biological transmission Effects 0.000 claims abstract description 30
- 239000010720 hydraulic oil Substances 0.000 claims abstract description 18
- 230000006399 behavior Effects 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 177
- 230000008569 process Effects 0.000 claims description 156
- 230000009471 action Effects 0.000 claims description 86
- 230000033228 biological regulation Effects 0.000 claims description 39
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 41
- 239000003921 oil Substances 0.000 abstract description 32
- 230000002787 reinforcement Effects 0.000 abstract description 25
- 230000001105 regulatory effect Effects 0.000 abstract 3
- 238000012545 processing Methods 0.000 description 55
- 238000002485 combustion reaction Methods 0.000 description 17
- 238000013507 mapping Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 3
- 230000007257 malfunction Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005728 strengthening Methods 0.000 description 3
- 238000007664 blowing Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W10/00—Conjoint control of vehicle sub-units of different type or different function
- B60W10/04—Conjoint control of vehicle sub-units of different type or different function including control of propulsion units
- B60W10/06—Conjoint control of vehicle sub-units of different type or different function including control of propulsion units including control of combustion engines
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/04—Monitoring the functioning of the control system
- B60W50/045—Monitoring control system parameters
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60K—ARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
- B60K6/00—Arrangement or mounting of plural diverse prime-movers for mutual or common propulsion, e.g. hybrid propulsion systems comprising electric motors and internal combustion engines ; Control systems therefor, i.e. systems controlling two or more prime movers, or controlling one of these prime movers and any of the transmission, drive or drive units Informative references: mechanical gearings with secondary electric drive F16H3/72; arrangements for handling mechanical energy structurally associated with the dynamo-electric machine H02K7/00; machines comprising structurally interrelated motor and generator parts H02K51/00; dynamo-electric machines not otherwise provided for in H02K see H02K99/00
- B60K6/20—Arrangement or mounting of plural diverse prime-movers for mutual or common propulsion, e.g. hybrid propulsion systems comprising electric motors and internal combustion engines ; Control systems therefor, i.e. systems controlling two or more prime movers, or controlling one of these prime movers and any of the transmission, drive or drive units Informative references: mechanical gearings with secondary electric drive F16H3/72; arrangements for handling mechanical energy structurally associated with the dynamo-electric machine H02K7/00; machines comprising structurally interrelated motor and generator parts H02K51/00; dynamo-electric machines not otherwise provided for in H02K see H02K99/00 the prime-movers consisting of electric motors and internal combustion engines, e.g. HEVs
- B60K6/42—Arrangement or mounting of plural diverse prime-movers for mutual or common propulsion, e.g. hybrid propulsion systems comprising electric motors and internal combustion engines ; Control systems therefor, i.e. systems controlling two or more prime movers, or controlling one of these prime movers and any of the transmission, drive or drive units Informative references: mechanical gearings with secondary electric drive F16H3/72; arrangements for handling mechanical energy structurally associated with the dynamo-electric machine H02K7/00; machines comprising structurally interrelated motor and generator parts H02K51/00; dynamo-electric machines not otherwise provided for in H02K see H02K99/00 the prime-movers consisting of electric motors and internal combustion engines, e.g. HEVs characterised by the architecture of the hybrid electric vehicle
- B60K6/44—Series-parallel type
- B60K6/445—Differential gearing distribution type
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W10/00—Conjoint control of vehicle sub-units of different type or different function
- B60W10/04—Conjoint control of vehicle sub-units of different type or different function including control of propulsion units
- B60W10/08—Conjoint control of vehicle sub-units of different type or different function including control of propulsion units including control of electric propulsion units, e.g. motors or generators
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W10/00—Conjoint control of vehicle sub-units of different type or different function
- B60W10/10—Conjoint control of vehicle sub-units of different type or different function including control of change-speed gearings
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W20/00—Control systems specially adapted for hybrid vehicles
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/02—Ensuring safety in case of control system failures, e.g. by diagnosing, circumventing or fixing failures
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/02—Ensuring safety in case of control system failures, e.g. by diagnosing, circumventing or fixing failures
- B60W50/0205—Diagnosing or detecting failures; Failure detection models
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F16—ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
- F16H—GEARING
- F16H59/00—Control inputs to control units of change-speed-, or reversing-gearings for conveying rotary motion
- F16H59/68—Inputs being a function of gearing status
- F16H59/72—Inputs being a function of gearing status dependent on oil characteristics, e.g. temperature, viscosity
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0026—Lookup tables or parameter maps
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0062—Adapting control system settings
- B60W2050/0075—Automatic parameter input, automatic initialising or calibrating means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0062—Adapting control system settings
- B60W2050/0075—Automatic parameter input, automatic initialising or calibrating means
- B60W2050/0083—Setting, resetting, calibration
- B60W2050/0088—Adaptive recalibration
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2510/00—Input parameters relating to a particular sub-units
- B60W2510/06—Combustion engines, Gas turbines
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2510/00—Input parameters relating to a particular sub-units
- B60W2510/06—Combustion engines, Gas turbines
- B60W2510/0676—Engine temperature
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2510/00—Input parameters relating to a particular sub-units
- B60W2510/08—Electric propulsion units
- B60W2510/087—Temperature
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2510/00—Input parameters relating to a particular sub-units
- B60W2510/10—Change speed gearings
- B60W2510/107—Temperature
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F16—ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
- F16H—GEARING
- F16H61/00—Control functions within control units of change-speed- or reversing-gearings for conveying rotary motion ; Control of exclusively fluid gearing, friction gearing, gearings with endless flexible members or other particular types of gearing
- F16H2061/0075—Control functions within control units of change-speed- or reversing-gearings for conveying rotary motion ; Control of exclusively fluid gearing, friction gearing, gearings with endless flexible members or other particular types of gearing characterised by a particular control method
- F16H2061/0087—Adaptive control, e.g. the control parameters adapted by learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/60—Other road transportation technologies with climate change mitigation effect
- Y02T10/62—Hybrid vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Mechanical Engineering (AREA)
- Chemical & Material Sciences (AREA)
- Combustion & Propulsion (AREA)
- Transportation (AREA)
- Automation & Control Theory (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Oil, Petroleum & Natural Gas (AREA)
- Control Of Transmission Device (AREA)
- Feedback Control In General (AREA)
Abstract
【課題】強化学習による学習結果が、通常時において駆動系装置を操作するうえで適切な値から大きくずれることを抑制できるようにした車両用制御装置を提供する。
【解決手段】関係規定データDRには、アクセル操作量ACCPや油温Toil、第2モータジェネレータ24の回転軸24aの回転速度Nm2等を状態とし、変速装置26の作動油の油圧指令値を行動とする行動価値関数が含まれる。CPU42は、状態に基づき行動を決定してソレノイドバルブ28aを操作し、変速時間等に基づき報酬を算出し、報酬に基づき関係規定データDRを更新する。CPU42は、変速装置26に異常が生じる場合、関係規定データDRの更新を制限する。
【選択図】図1
【解決手段】関係規定データDRには、アクセル操作量ACCPや油温Toil、第2モータジェネレータ24の回転軸24aの回転速度Nm2等を状態とし、変速装置26の作動油の油圧指令値を行動とする行動価値関数が含まれる。CPU42は、状態に基づき行動を決定してソレノイドバルブ28aを操作し、変速時間等に基づき報酬を算出し、報酬に基づき関係規定データDRを更新する。CPU42は、変速装置26に異常が生じる場合、関係規定データDRの更新を制限する。
【選択図】図1
Description
本発明は、車両用制御装置、車両用制御システム、および車両用学習装置に関する。
たとえば下記特許文献1には、車両の状態に応じた適切な変速比を強化学習によって定めることが記載されている。
ところで、上記の変速比を調整する変速装置の駆動に制約がある場合に、強化学習を繰り返すと、学習結果が、変速装置の駆動に制約がない場合における適切な値から大きくずれるおそれがある。こうした事情は、変速装置に限らず、駆動系装置において一般に生じうる。
以下、上記課題を解決するための手段およびその作用効果について記載する。
1.実行装置および記憶装置を備え、前記記憶装置には、車両の状態と前記車両に搭載されている駆動系装置の操作に関する変数である行動変数との関係を規定するためのデータである関係規定データが記憶されており、前記実行装置は、センサの検出値に基づく前記状態を取得する取得処理と、前記取得処理によって取得された前記状態と前記関係規定データとによって定まる前記行動変数の値に基づき前記駆動系装置を操作する操作処理と、前記取得処理によって取得された前記状態に基づく前記駆動系装置の状態が所定の基準を満たす場合に満たさない場合よりも大きい報酬を与える報酬算出処理と、前記取得処理によって取得された前記状態、前記駆動系装置の操作に用いられた前記行動変数の値、および該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、通常時と比較して前記駆動系装置の駆動に制約がある場合、前記更新処理による前記関係規定データの更新量が小さくなる側に前記更新処理の実行を制限する制限処理と、を実行し、前記更新写像は、前記関係規定データに従って前記駆動系装置が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものである車両用制御装置である。
1.実行装置および記憶装置を備え、前記記憶装置には、車両の状態と前記車両に搭載されている駆動系装置の操作に関する変数である行動変数との関係を規定するためのデータである関係規定データが記憶されており、前記実行装置は、センサの検出値に基づく前記状態を取得する取得処理と、前記取得処理によって取得された前記状態と前記関係規定データとによって定まる前記行動変数の値に基づき前記駆動系装置を操作する操作処理と、前記取得処理によって取得された前記状態に基づく前記駆動系装置の状態が所定の基準を満たす場合に満たさない場合よりも大きい報酬を与える報酬算出処理と、前記取得処理によって取得された前記状態、前記駆動系装置の操作に用いられた前記行動変数の値、および該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、通常時と比較して前記駆動系装置の駆動に制約がある場合、前記更新処理による前記関係規定データの更新量が小さくなる側に前記更新処理の実行を制限する制限処理と、を実行し、前記更新写像は、前記関係規定データに従って前記駆動系装置が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものである車両用制御装置である。
上記構成では、駆動系装置の駆動に制約がある場合に、更新量が小さくなる側に更新処理の実行が制限される。そのため、駆動系装置の駆動に制約がある場合に関係規定データが更新されることによって大きく変化することを抑制できる。したがって、上記構成では、強化学習による学習結果が、通常時において駆動系装置を操作するうえで適切な値から大きくずれることを抑制できる。
2.前記実行装置は、前記駆動系装置の異常の有無を判定する異常判定処理を実行し、前記制限処理は、前記異常判定処理によって異常があると判定される場合に通常時と比較して前記駆動系装置の駆動に制約がある場合であるとして、前記更新処理の実行を制限する処理を含む上記1記載の車両用制御装置である。
駆動系装置に異常がある場合に強化学習がなされると、強化学習による学習結果が、駆動系装置の正常時における適切な値から大きくずれるおそれがある。そこで上記構成では、異常があると判定されている場合に更新処理の実行を制限することにより、強化学習による学習結果が、通常時において駆動系装置を操作するうえで適切な値から大きくずれることを抑制できる。
3.前記駆動系装置は、変速装置を含み、前記制限処理は、前記変速装置の作動油の温度が高温側閾値以上である場合に通常時と比較して前記駆動系装置の駆動に制約がある場合であるとして、前記更新量を制限する処理を含む上記1または2記載の車両用制御装置である。
作動油の温度が過度に高い場合に強化学習を実行すると、強化学習による学習結果が、通常時の温度領域において駆動系装置を操作するうえで適切な値から大きくずれるおそれがある。そこで上記構成では、作動油の温度が高温側閾値以上である場合に更新処理の実行を制限することにより、強化学習による学習結果が、作動油の温度が通常時の温度領域において適切な値から大きくずれることを抑制できる。
4.前記駆動系装置は、変速装置を含み、前記制限処理は、前記変速装置の作動油の温度が低温側閾値以下である場合に通常時と比較して前記駆動系装置の駆動に制約がある場合であるとして、前記更新量を制限する処理を含む上記1~3のいずれか1つに記載の車両用制御装置である。
作動油の温度が過度に低い場合に強化学習を実行すると、強化学習による学習結果が、通常時の温度領域において駆動系装置を操作するうえで適切な値から大きくずれるおそれがある。そこで上記構成では、作動油の温度が低温側閾値以下である場合に更新処理の実行を制限することにより、強化学習による学習結果が、作動油の温度が通常時の温度領域において適切な値から大きくずれることを抑制できる。
5.前記制限処理は、前記更新量をゼロとする処理である上記1~4のいずれか1つに記載の車両用制御装置である。
上記構成では、制限処理によって更新量をゼロとすることにより、更新量を小さくしつつもゼロとしない場合と比較して、関係規定データが通常時において適切なデータからずれることを十分に抑制できる。
上記構成では、制限処理によって更新量をゼロとすることにより、更新量を小さくしつつもゼロとしない場合と比較して、関係規定データが通常時において適切なデータからずれることを十分に抑制できる。
6.上記1~5のいずれか1つに記載の前記実行装置および前記記憶装置を備え、前記実行装置は、前記車両に搭載される第1実行装置と、車載装置とは別の第2実行装置と、を含み、前記第1実行装置は、少なくとも前記取得処理および前記操作処理を実行し、前記第2実行装置は、少なくとも前記更新処理を実行する車両用制御システムである。
上記構成によれば、第2実行装置が更新処理を実行することから、第1実行装置が更新処理を実行する場合と比較して、第1実行装置の演算負荷を軽減できる。
なお、第2実行装置が車載装置とは別の装置であることは、第2実行装置が車載装置ではないことを意味する。
なお、第2実行装置が車載装置とは別の装置であることは、第2実行装置が車載装置ではないことを意味する。
7.上記6記載の車両用制御システムにおける第1実行装置を備える車両用制御装置である。
8.上記6記載の車両用制御システムにおける第2実行装置を備える車両用学習装置である。
8.上記6記載の車両用制御システムにおける第2実行装置を備える車両用学習装置である。
<第1の実施形態>
以下、第1の実施形態について図面を参照しつつ説明する。
図1に示すように、内燃機関10のクランク軸12には、動力分割装置20が機械的に連結されている。動力分割装置20は、内燃機関10、第1モータジェネレータ22、および第2モータジェネレータ24の動力を分割する。動力分割装置20は、遊星歯車機構を備えており、遊星歯車機構のキャリアCにクランク軸12が機械的に連結されており、サンギアSに、第1モータジェネレータ22の回転軸22aが機械的に連結されており、リングギアRに、第2モータジェネレータ24の回転軸24aが機械的に連結されている。なお、第1モータジェネレータ22の端子には、第1インバータ23の出力電圧が印加される。また、第2モータジェネレータ24の端子には、第2インバータ25の出力電圧が印加される。
以下、第1の実施形態について図面を参照しつつ説明する。
図1に示すように、内燃機関10のクランク軸12には、動力分割装置20が機械的に連結されている。動力分割装置20は、内燃機関10、第1モータジェネレータ22、および第2モータジェネレータ24の動力を分割する。動力分割装置20は、遊星歯車機構を備えており、遊星歯車機構のキャリアCにクランク軸12が機械的に連結されており、サンギアSに、第1モータジェネレータ22の回転軸22aが機械的に連結されており、リングギアRに、第2モータジェネレータ24の回転軸24aが機械的に連結されている。なお、第1モータジェネレータ22の端子には、第1インバータ23の出力電圧が印加される。また、第2モータジェネレータ24の端子には、第2インバータ25の出力電圧が印加される。
動力分割装置20のリングギアRには、第2モータジェネレータ24の回転軸24aに加えて、さらに、変速装置26を介して駆動輪30が機械的に連結されている。
また、キャリアCには、オイルポンプ32の従動軸32aが機械的に連結されている。オイルポンプ32は、オイルパン34内のオイルを吸入して作動油として変速装置26に吐出するポンプである。なお、オイルポンプ32から吐出された作動油は、変速装置26内の油圧制御回路28によってその圧力が調整されて作動油として利用される。油圧制御回路28は、複数のソレノイドバルブ28aを備えており、それら各ソレノイドバルブ28aの通電によって、作動油の流動状態や作動油の油圧を制御する回路である。
また、キャリアCには、オイルポンプ32の従動軸32aが機械的に連結されている。オイルポンプ32は、オイルパン34内のオイルを吸入して作動油として変速装置26に吐出するポンプである。なお、オイルポンプ32から吐出された作動油は、変速装置26内の油圧制御回路28によってその圧力が調整されて作動油として利用される。油圧制御回路28は、複数のソレノイドバルブ28aを備えており、それら各ソレノイドバルブ28aの通電によって、作動油の流動状態や作動油の油圧を制御する回路である。
制御装置40は、内燃機関10を制御対象とし、その制御量であるトルクや排気成分比率等を制御すべく、内燃機関10の各種操作部を操作する。また、制御装置40は、第1モータジェネレータ22を制御対象とし、その制御量であるトルクや回転速度等を制御すべく、第1インバータ23を操作する。また、制御装置40は、第2モータジェネレータ24を制御対象とし、その制御量であるトルクや回転速度等を制御すべく、第2インバータ25を操作する。
制御装置40は、上記制御量を制御する際、クランク角センサ50の出力信号Scrや、第1モータジェネレータ22の回転軸22aの回転角を検知する第1回転角センサ52の出力信号Sm1、第2モータジェネレータ24の回転軸24aの回転角を検知する第2回転角センサ54の出力信号Sm2を参照する。また、制御装置40は、油温センサ56によって検出されるオイルの温度である油温Toilや、車速センサ58によって検出される車速SPD、アクセルセンサ62によって検出されるアクセルペダル60の踏み込み量であるアクセル操作量ACCPを参照する。
制御装置40は、CPU42、ROM44、電気的に書き換え可能な不揮発性メモリである記憶装置46、および周辺回路48を備えており、それらがローカルネットワーク49を介して通信可能とされている。ここで、周辺回路48は、内部の動作を規定するクロック信号を生成する回路や、電源回路、リセット回路等を含む。制御装置40は、ROM44に記憶されたプログラムをCPU42が実行することにより制御量を制御する。
図2に、制御装置40が実行する処理の手順を示す。図2に示す処理は、ROM44に記憶された学習プログラムDLPをCPU42が所定の条件が成立する都度繰り返し実行することにより実現される。なお、以下では、先頭に「S」が付与された数字によって各処理のステップ番号を表現する。
図2に示す一連の処理において、CPU42は、まず、変速比の切り替えがなされる期間であるか否かを、換言すれば変速期間であるか否かを判定する(S10)。CPU42は、変速期間であると判定する場合(S10:YES)、状態sとしてのアクセル操作量ACCP、変速変数ΔVsft、油温Toil、フェーズ変数Vpase、および第2モータジェネレータ24の回転速度Nm2を取得する(S12)。ここで、変速変数ΔVsftは、1速から2速への変速なのか、2速から1速への変速なのか等の、変速比の移行前と移行後とを特定する変数である。また、フェーズ変数Vpaseは、変速期間における変速の段階を定める3つのフェーズのいずれであるかを特定する変数である。
すなわち、本実施形態では、変速期間をフェーズ1、フェーズ2、およびフェーズ3に区分している。ここで、フェーズ1は、変速比の切り替え制御の開始時から予め定められた時間が経過するまでの期間である。フェーズ2は、フェーズ1の終了時からトルク相の終了時までの期間である。換言すれば、変速比の切り替えによって締結状態から解放状態に切り替わる摩擦係合要素によるトルク伝達率がゼロとなるまでの期間である。CPU42は、フェーズ2の終点を、変速装置26の出力軸の回転速度と変速比の切替前の変速比とから定まる入力軸の回転速度に対する実際の入力軸の回転速度のずれに基づき判定する。なお、入力軸回転速度は、回転速度Nm2とすればよい。またCPU42は、出力軸の回転速度を、車速SPDに応じて算出する。フェーズ3は、フェーズ2の終了時から変速が完了するまでの期間である。
なお、図2の処理の実行される上記所定の条件は、フェーズの開始タイミングである旨の条件とする。
上記回転速度Nm2は、CPU42により、出力信号Sm2に基づき算出される。
上記回転速度Nm2は、CPU42により、出力信号Sm2に基づき算出される。
状態sは、図1に示す記憶装置46に記憶されている関係規定データDRによって行動変数との関係が規定される変数の値である。ここで、本実施形態では、行動変数として、変速比の切り替えにかかる摩擦係合要素を駆動する作動油の油圧指令値を例示する。詳しくは、フェーズ1およびフェーズ2については、該当期間で一定の油圧指令値とし、フェーズ3については一定速度で上昇する油圧指令値とする。なお、関係規定データDRに実際に含まれるフェーズ3の行動変数は、圧力上昇速度であってよい。
具体的には、関係規定データDRは、行動価値関数Qを含む。行動価値関数Qは、状態sおよび行動aを独立変数とし、それら状態sおよび行動aに対して期待される収益を従属変数とする関数である。本実施形態では、行動価値関数Qを、テーブル形式の関数とする。
次にCPU42は、制限フラグFが「0」であるか否かを判定する(S14)。制限フラグFは、「0」である場合に、強化学習を許可する旨を示し、「1」である場合に強化学習を制限する旨を示す。
CPU42は、制限フラグFが「0」であると判定する場合(S14:YES)、関係規定データDRによって規定される方策πに基づき、行動変数の値を算出する(S16)。本実施形態では、方策として、εグリーディ方策を例示する。すなわち、状態sが与えられたときに、独立変数が与えられた状態sとなる行動価値関数Qのうち最大となる行動変数(以下、グリーディ行動agと称する)を優先的に選択しつつも、所定の確率で、それ以外の行動を選択する規則を定める方策を例示する。具体的には、行動変数がとりうる値の総数を「|A|」にて表記する場合、グリーディ行動以外の行動変数の値をとる確率を、それぞれ「ε/|A|」とする。
ちなみに、本実施形態では行動価値関数Qをテーブル形式のデータとしていることに鑑み、独立変数としての状態sは、一定の幅を有するものとする。すなわち、たとえばアクセル操作量ACCPについては10%間隔で行動価値関数Qを定義する場合、アクセル操作量ACCPが「3%」である場合と、「6%」である場合とは、それのみによって異なる状態sとされることはない。
次にCPU42は、ソレノイドバルブ28aの通電電流Iが油圧指令値P*に基づき定まる値となるように通電電流Iを操作する(S18)。そして、CPU42は、吹き量ΔNm2を算出する(S20)。吹き量ΔNm2は、変速期間における変速装置26の入力軸の回転速度の吹き上がり量を定量化したものであり、予め定められた基準となる回転速度Nm2*に対する回転速度Nm2の上回り量として算出される。ここでCPU42は、基準となる回転速度Nm2*を、アクセル操作量ACCP、車速SPDおよび変速変数ΔVsftに応じて設定する。この処理は、アクセル操作量ACCP、車速SPDおよび変速変数ΔVsftを入力変数とし、基準となる回転速度Nm2*を出力変数とするマップデータがROM44に予め記憶された状態でCPU42により基準となる回転速度Nm2*をマップ演算することにより実現できる。なお、マップデータとは、入力変数の離散的な値と、入力変数の値のそれぞれに対応する出力変数の値と、の組データである。また、マップ演算は、たとえば、入力変数の値がマップデータの入力変数の値のいずれかに一致する場合、対応するマップデータの出力変数の値を演算結果とするのに対し、一致しない場合、マップデータに含まれる複数の出力変数の値の補間によって得られる値を演算結果とする処理とすればよい。
CPU42は、S20の処理を、現在のフェーズが完了するまで実行する(S22:NO)。そしてCPU42は、現在のフェーズが完了すると判定する場合(S22:YES)、S16の処理において用いた行動に対する報酬を算出する(S24)。
図3に、S24の処理の詳細を示す。
図3に示す一連の処理において、CPU42は、まずフェーズ変数Vpaseが「3」であるか否かを判定する(S40)。そして、CPU42は、「3」であると判定する場合(S40:YES)、変速が完了したことから、変速に要した時間である変速時間Tsftを算出する(S42)。そして、CPU42は、変速時間Tsftに応じた報酬r1を算出する(S44)。詳しくは、CPU42は、変速時間Tsftが小さい場合に大きい場合よりも報酬r1を大きい値に算出する。
図3に示す一連の処理において、CPU42は、まずフェーズ変数Vpaseが「3」であるか否かを判定する(S40)。そして、CPU42は、「3」であると判定する場合(S40:YES)、変速が完了したことから、変速に要した時間である変速時間Tsftを算出する(S42)。そして、CPU42は、変速時間Tsftに応じた報酬r1を算出する(S44)。詳しくは、CPU42は、変速時間Tsftが小さい場合に大きい場合よりも報酬r1を大きい値に算出する。
次にCPU42は、S20の処理によって所定周期で繰り返し算出された吹き量ΔNm2のうちの最大値を吹き量最大値ΔNm2maxに代入する(S46)。次にCPU42は、吹き量最大値ΔNm2maxに応じた報酬r2を算出する(S48)。詳しくは、CPU42は、吹き量最大値ΔNm2maxが小さい場合に大きい場合よりも報酬r2を大きい値に算出する。
そして、CPU42は、S16の処理において用いた行動に対する報酬rに、報酬r1と報酬r2との和を代入する(S50)。
一方、CPU42は、フェーズ変数Vpaseが「1」または「2」であると判定する場合(S40:NO)、報酬rに「0」を代入する(S52)。
一方、CPU42は、フェーズ変数Vpaseが「1」または「2」であると判定する場合(S40:NO)、報酬rに「0」を代入する(S52)。
なお、CPU42は、S50,S52の処理が完了する場合、S24の処理を完了する。
図2に戻り、CPU42は、S16の処理において用いた行動価値関数Q(s,a)を、報酬rに基づき更新する(S26)。なお、S16の処理において用いた行動価値関数Q(s,a)とは、S12の処理によって取得した状態sとS16の処理によって設定された行動aとを独立変数とする行動価値関数Q(s,a)のことである。
図2に戻り、CPU42は、S16の処理において用いた行動価値関数Q(s,a)を、報酬rに基づき更新する(S26)。なお、S16の処理において用いた行動価値関数Q(s,a)とは、S12の処理によって取得した状態sとS16の処理によって設定された行動aとを独立変数とする行動価値関数Q(s,a)のことである。
本実施形態では、以下の式(c1)にて定義される、方策オフ型のTD法であるいわゆるQ学習によって行動価値関数Q(s,a)を更新する。
Q(s,a)
←Q+α・{r+γ・maxQ(s+1,A)-Q(s,a)} …(c1)
ここで、行動価値関数Q(s,a)の更新量「α・{r+γ・maxQ(s+1,A)-Q(s,a)}」には、割引率γおよび学習率αを用いている。なお、割引率γは、「0」よりも大きく「1」以下の定数である。また、「maxQ(s+1,a)」は、フェーズ完了時の状態変数、すなわち、図2に示す一連の処理の次回のS12の処理によって取得されるべき状態s+1を独立変数とする行動価値関数Qのうちの最大値を意味する。なお、現在のフェーズがフェーズ3でない限り、図2に示す一連の処理の次回のS12の処理によって取得される状態sは、S26の処理によって用いられる状態s+1とする。また、現在のフェーズがフェーズ3である場合、図2に示す一連の処理の今回のS12の処理によって取得した状態sを状態s+1とする。
Q(s,a)
←Q+α・{r+γ・maxQ(s+1,A)-Q(s,a)} …(c1)
ここで、行動価値関数Q(s,a)の更新量「α・{r+γ・maxQ(s+1,A)-Q(s,a)}」には、割引率γおよび学習率αを用いている。なお、割引率γは、「0」よりも大きく「1」以下の定数である。また、「maxQ(s+1,a)」は、フェーズ完了時の状態変数、すなわち、図2に示す一連の処理の次回のS12の処理によって取得されるべき状態s+1を独立変数とする行動価値関数Qのうちの最大値を意味する。なお、現在のフェーズがフェーズ3でない限り、図2に示す一連の処理の次回のS12の処理によって取得される状態sは、S26の処理によって用いられる状態s+1とする。また、現在のフェーズがフェーズ3である場合、図2に示す一連の処理の今回のS12の処理によって取得した状態sを状態s+1とする。
一方、CPU42は、S14の処理において制限フラグFが「1」であると判定する場合(S14:NO)、独立変数が与えられた状態sとなる行動価値関数Qのうち最大となる行動aであるグリーディ行動agによって、油圧指令値P*を設定する(S28)。そして、CPU42は、S28の処理によって設定した油圧指令値P*とするように、ソレノイドバルブ28aの通電電流Iを操作する(S30)。
なお、CPU42は、S26,S30の処理が完了する場合や、S10の処理において否定判定する場合には、図2に示す一連の処理を一旦終了する。ちなみに、車両VCの出荷時における関係規定データDRは、同一仕様の試作車等において図2の処理と同様の処理によって学習がなされたデータとする。すなわち、図2の処理は、車両VCの出荷前に設定された油圧指令値P*を、車両VCが実際に道路を走行する際に適切な値に強化学習によって更新するための処理である。
図4に上記制限フラグFの値の設定に関する処理の手順を示す。図4に示す処理は、ROM44に記憶された学習プログラムDLPをCPU42がたとえば所定周期で繰り返し実行することにより実現される。
図4に示す一連の処理において、CPU42は、まず変速期間であって且つグリーディ行動agが選択されている期間であるか否かを判定する(S60)。そしてCPU42は、S60の処理において肯定判定する場合(S60:YES)、吹き量ΔNm2が閾値Δth以上となる状態が所定期間継続したか否かを判定する(S62)。この処理は、変速制御に異常が生じているか否かを判定する処理である。すなわち、変速期間においてグリーディ行動が採用されている場合、吹き量ΔNm2はさほど大きくならないはずである。にもかかわらず、吹き量ΔNm2が閾値を超える場合、たとえばソレノイドバルブ28aに異物が挟み込まれてソレノイドバルブ28aの動作不良が生じたり、作動油の劣化によって作動油中にエアが多量に混入することに起因して摩擦係合要素の制御性が低下したりする異常が生じていると考えられる。
CPU42は、所定期間継続したと判定する場合(S62:YES)、制限フラグFに「1」を代入する(S64)。
一方、CPU42は、S60の処理において否定判定する場合には、油温Toilを取得する(S66)。そしてCPU42は、油温Toilが高温側閾値TH以上であることと、油温Toilが低温側閾値TL以下であることとの論理和が真であるか否かを判定する(S68)。ここで、高温側閾値THは、変速装置26の通常の使用状態において油温Toilがとりうると想定されている温度の最高値よりも高い値に設定されている。また、低温側閾値TLは、変速装置26の通常の使用状態において油温Toilがとりうると想定されている温度の最低値よりも低い値に設定されている。この処理は、油温Toilが、想定されている温度領域から外れているために、想定されている温度領域における粘性から実際の粘性が大きくずれるなどして変速装置26の駆動に制約が生じうるか否かを判定する処理である。
一方、CPU42は、S60の処理において否定判定する場合には、油温Toilを取得する(S66)。そしてCPU42は、油温Toilが高温側閾値TH以上であることと、油温Toilが低温側閾値TL以下であることとの論理和が真であるか否かを判定する(S68)。ここで、高温側閾値THは、変速装置26の通常の使用状態において油温Toilがとりうると想定されている温度の最高値よりも高い値に設定されている。また、低温側閾値TLは、変速装置26の通常の使用状態において油温Toilがとりうると想定されている温度の最低値よりも低い値に設定されている。この処理は、油温Toilが、想定されている温度領域から外れているために、想定されている温度領域における粘性から実際の粘性が大きくずれるなどして変速装置26の駆動に制約が生じうるか否かを判定する処理である。
CPU42は、論理和が真であると判定する場合(S68:YES)、S64の処理に移行する。これに対し、CPU42は、論理和が偽であると判定する場合(S68:NO)や、S62の処理において否定判定する場合には、制限フラグFに「0」を代入する(S70)。
なお、CPU42は、S64,S70の処理を完了する場合には、図4に示す一連の処理を一旦終了する。
ここで、本実施形態の作用および効果について説明する。
ここで、本実施形態の作用および効果について説明する。
CPU42は、変速期間において、グリーディ行動agを選択してソレノイドバルブ28aの通電電流を操作しつつも、所定の確率でグリーディ行動以外の行動を用いてよりよい油圧指令値P*を探索する。そして、CPU42は、油圧指令値P*を定めるために利用した行動価値関数QをQ学習によって更新する。これにより、車両VCが実際に走行しているときにおいて適切な油圧指令値P*を強化学習によって学習できる。
ただし、CPU42は、変速制御に異常が生じたり、油温Toilが過度に高かったり、油温Toilが過度に低かったりする場合、強化学習を禁止する。これにより、関係規定データDRが示すグリーディ行動agが、通常の変速比の切り替え時において変速装置26を操作するうえで適切な値から大きくずれた値に更新されることを抑制できる。
<第2の実施形態>
以下、第2の実施形態について、第1の実施形態との相違点を中心に図面を参照しつつ説明する。
以下、第2の実施形態について、第1の実施形態との相違点を中心に図面を参照しつつ説明する。
図5に、制御装置40が実行する処理の手順を示す。図5に示す処理は、ROM44に記憶されたプログラムをCPU42がたとえば所定周期で繰り返し実行することにより実現される。なお、図5において、図2に示した処理に対応する処理については、便宜上同一のステップ番号を付与している。
図5に示す一連の処理において、CPU42は、S12の処理を完了する場合、S16の処理に移行する。すなわち、本実施形態では、制限フラグFの値に応じてS16の処理とS28の処理とのいずれに移行するかを選択する処理を実行しない。一方、CPU42は、S22の処理において肯定判定する場合、S24aの処理を実行してS26の処理に移行する。
図6に、S24aの処理の詳細を示す。なお、図6において、図3に示した処理に対応する処理については、便宜上同一のステップ番号を付与している。
図6に示す一連の処理において、CPU42は、S40の処理において肯定判定する場合、異常判定の履歴を取得する(S79)。すなわち、図4のS62の処理において肯定判定された履歴を取得する。そして、CPU42は、S42の処理を完了すると、変速時間Tsftに応じた報酬r1を算出する(S44a)。ここで、CPU42は、異常がある旨判定されている場合には、変速時間Tsftにかかわらず報酬r1を「0」とする。また、CPU42は、油温Toilが低温側閾値TL以下である場合には、変速時間Tsftが小さい場合に大きい場合よりも報酬r1を大きい値に算出するものの、低温側閾値TLよりも高く且つ高温側閾値TH未満である場合と比較して報酬r1の絶対値を小さい値とする。また、CPU42は、油温Toilが高温側閾値TH以上である場合には、変速時間Tsftが小さい場合に大きい場合よりも報酬r1を大きい値に算出するものの、低温側閾値TLよりも高く且つ高温側閾値TH未満である場合と比較して報酬r1の絶対値を小さい値とする。なお、本実施形態では、高温側閾値TH以上である場合には、低温側閾値TL以下である場合と比較して、報酬r1の絶対値を大きい値に算出する。
図6に示す一連の処理において、CPU42は、S40の処理において肯定判定する場合、異常判定の履歴を取得する(S79)。すなわち、図4のS62の処理において肯定判定された履歴を取得する。そして、CPU42は、S42の処理を完了すると、変速時間Tsftに応じた報酬r1を算出する(S44a)。ここで、CPU42は、異常がある旨判定されている場合には、変速時間Tsftにかかわらず報酬r1を「0」とする。また、CPU42は、油温Toilが低温側閾値TL以下である場合には、変速時間Tsftが小さい場合に大きい場合よりも報酬r1を大きい値に算出するものの、低温側閾値TLよりも高く且つ高温側閾値TH未満である場合と比較して報酬r1の絶対値を小さい値とする。また、CPU42は、油温Toilが高温側閾値TH以上である場合には、変速時間Tsftが小さい場合に大きい場合よりも報酬r1を大きい値に算出するものの、低温側閾値TLよりも高く且つ高温側閾値TH未満である場合と比較して報酬r1の絶対値を小さい値とする。なお、本実施形態では、高温側閾値TH以上である場合には、低温側閾値TL以下である場合と比較して、報酬r1の絶対値を大きい値に算出する。
次にCPU42は、S46の処理を実行し、さらに、吹き量最大値ΔNm2maxに応じた報酬r2を算出する(S48a)。ここで、CPU42は、異常がある旨判定されている場合や油温Toilが低温側閾値TL以下である場合には、吹き量最大値ΔNm2maxにかかわらず報酬r2を「0」とする。また、CPU42は、油温Toilが高温側閾値TH以上である場合には、吹き量最大値ΔNm2maxが小さい場合に大きい場合よりも報酬r2を大きい値に算出するものの、低温側閾値TLよりも高く且つ高温側閾値TH未満である場合と比較して報酬r2の絶対値を小さい値とする。
なお、CPU42は、S48aの処理を完了する場合、S50の処理に移行する。
このように本実施形態にかかるCPU42は、変速制御に異常が生じている場合には、報酬rを「0」とすることにより、関係規定データDRの更新を禁止する。また、CPU42は、油温Toilが低温側閾値TL以下である場合、吹き量最大値ΔNm2maxに基づく報酬r2を「0」とすることにより、吹き量最大値ΔNm2maxに基づく関係規定データDRの更新を禁止する。これにより、関係規定データDRが示すグリーディ行動agが、通常の変速比の切り替え時において適切な値から大きくずれた値に更新されることを抑制できる。
このように本実施形態にかかるCPU42は、変速制御に異常が生じている場合には、報酬rを「0」とすることにより、関係規定データDRの更新を禁止する。また、CPU42は、油温Toilが低温側閾値TL以下である場合、吹き量最大値ΔNm2maxに基づく報酬r2を「0」とすることにより、吹き量最大値ΔNm2maxに基づく関係規定データDRの更新を禁止する。これにより、関係規定データDRが示すグリーディ行動agが、通常の変速比の切り替え時において適切な値から大きくずれた値に更新されることを抑制できる。
また、CPU42は、油温Toilが低温側閾値TL以下である場合や高温側閾値TH以上である場合には、変速時間Tsftに応じた報酬を与えつつも、その絶対値を小さくすることにより、関係規定データDRの更新量が小さくなるように更新を制限する。また、CPU42は、油温Toilが高温側閾値TH以上である場合には、吹き量最大値ΔNm2maxに応じた報酬を与えつつも、その絶対値を小さくすることにより、関係規定データDRの更新量が小さくなるように更新を制限する。これにより、油温Toilが通常の温度から過度にずれている場合にとって適切な油圧指令値P*がわずかに反映されたグリーディ行動agとなるように関係規定データDRを更新できる。
<第3の実施形態>
以下、第3の実施形態について、第1の実施形態との相違点を中心に図面を参照しつつ説明する。
以下、第3の実施形態について、第1の実施形態との相違点を中心に図面を参照しつつ説明する。
図7に、本実施形態にかかるシステムの構成を示す。なお、図7において図1に示した部材に対応する部材については、便宜上同一の符号を付してその説明を省略する。
図7に示すように、車両VC(1)の制御装置40は、通信機47を備えており、通信機47によって外部のネットワーク80を介してデータ解析センター90と通信可能となっている。
図7に示すように、車両VC(1)の制御装置40は、通信機47を備えており、通信機47によって外部のネットワーク80を介してデータ解析センター90と通信可能となっている。
データ解析センター90は、複数の車両VC(1),VC(2),…から送信されるデータを解析する。データ解析センター90は、CPU92、ROM94、記憶装置96および通信機97を備えており、それらがローカルネットワーク99を介して通信可能とされている。なお、記憶装置96は、電気的に書き換え可能な不揮発性の装置であり、関係規定データDRを記憶している。
図8に、本実施形態にかかる強化学習の処理手順を示す。図8(a)に示す処理は、図7に示すROM44に記憶されている学習サブプログラムDLPaをCPU42が実行することにより実現される。また、図8(b)に示す処理は、ROM94に記憶されている学習メインプログラムDLPbをCPU92が実行することにより実現される。なお、図8において図2に示した処理に対応する処理については、便宜上同一のステップ番号を付している。以下では、強化学習の時系列に沿って、図8に示す処理を説明する。
図8(a)に示す一連の処理において、制御装置40のCPU42は、まず、S10~S20の処理を実行すると、変速が完了したか否かを判定する(S80)。そしてCPU42は、変速が完了したと判定する場合(S80:YES)、吹き量最大値ΔNm2maxおよび変速時間Tsftを算出する(S82)。そして、CPU42は、通信機47を操作することにより、強化学習によって関係規定データDRを更新するためのデータである、吹き量最大値ΔNm2maxおよび変速時間Tsftや、変速期間における状態s、行動a、制限フラグFを、車両VC(1)の識別記号とともに送信する(S84)。
これに対し、図8(b)に示すように、データ解析センター90のCPU92は、強化学習によって関係規定データDRを更新するためのデータを受信する(S90)。そしてCPU92は、受信したデータに基づき、S26の処理を実行する。そしてCPU92は、通信機97を操作することによって、S90の処理によって受信したデータの送信元に、更新した関係規定データDRを送信する(S92)。なお、CPU92は、S92の処理を完了する場合、図8(b)に示す一連の処理を一旦終了する。
これに対し図8(a)に示すように、CPU42は、更新された関係規定データDRを受信する(S86)。そしてCPU42は、受信したデータに基づき、S16,S28の処理において利用する関係規定データDRを更新する(S88)。なお、CPU42は、S88,S30の処理を完了する場合や、S10,S80の処理において否定判定する場合には、図8(a)に示す一連の処理を一旦終了する。ただし、CPU42は、S80の処理において否定判定する場合においてフェーズの完了時でない場合には、図8(a)の一連の処理の次回の実行時においてS12,S16,S18の処理を新たに実行することはなく、実質的にはS20の処理に戻るのと等価とする。
このように、本実施形態によれば、関係規定データDRの更新処理を車両VC(1)の外部で行うことから、制御装置40の演算負荷を軽減できる。さらに、たとえばS90の処理において、複数の車両VC(1),VC(2),…からのデータを受信してS26の処理を行うなら、学習に用いるデータ数を容易に大きくすることができる。
<対応関係>
上記実施形態における事項と、上記「課題を解決するための手段」の欄に記載した事項との対応関係は、次の通りである。以下では、「課題を解決するための手段」の欄に記載した解決手段の番号毎に、対応関係を示している。[1]駆動系装置は、変速装置26に対応する。実行装置は、CPU42およびROM44に対応し、記憶装置は、記憶装置46に対応する。取得処理は、S12,S42,S46の処理に対応する。操作処理は、S18の処理に対応する。報酬算出処理は、S24,S24aの処理に対応する。更新処理は、S26の処理に対応する。制限処理は、図2においては、S14の処理において否定判定される場合にS28に移行することに対応し、図6の処理においては、S44a,S48aの処理に対応する。[2]異常判定処理は、S62の処理に対応する。[3,4]制限処理は、図2においては、S68の処理において肯定判定されS14の処理において否定判定される場合にS28に移行することに対応し、図6の処理においては、S44a,S48aの処理に対応する。[5]図2の処理に対応する。[6~8]第1実行装置は、CPU42およびROM44に対応し、第2実行装置は、CPU92およびROM94に対応する。
上記実施形態における事項と、上記「課題を解決するための手段」の欄に記載した事項との対応関係は、次の通りである。以下では、「課題を解決するための手段」の欄に記載した解決手段の番号毎に、対応関係を示している。[1]駆動系装置は、変速装置26に対応する。実行装置は、CPU42およびROM44に対応し、記憶装置は、記憶装置46に対応する。取得処理は、S12,S42,S46の処理に対応する。操作処理は、S18の処理に対応する。報酬算出処理は、S24,S24aの処理に対応する。更新処理は、S26の処理に対応する。制限処理は、図2においては、S14の処理において否定判定される場合にS28に移行することに対応し、図6の処理においては、S44a,S48aの処理に対応する。[2]異常判定処理は、S62の処理に対応する。[3,4]制限処理は、図2においては、S68の処理において肯定判定されS14の処理において否定判定される場合にS28に移行することに対応し、図6の処理においては、S44a,S48aの処理に対応する。[5]図2の処理に対応する。[6~8]第1実行装置は、CPU42およびROM44に対応し、第2実行装置は、CPU92およびROM94に対応する。
<その他の実施形態>
なお、本実施形態は、以下のように変更して実施することができる。本実施形態および以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
なお、本実施形態は、以下のように変更して実施することができる。本実施形態および以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
「異常判定処理について」
・異常判定処理としては、S62の処理に限らない。たとえば、ソレノイドバルブ28aに流れる電流の挙動に基づき異常の有無を判定するものであってもよい。ここで、ソレノイドバルブ28aに流れる電流の指令値をステップ的に増加させる場合の、実際の電流の応答性は、ソレノイドバルブ28aに動作不良が生じている場合に動作不良が生じていない場合と比較して高くなる傾向がある。そのため、たとえば応答速度に応じて異常の有無を判定できる。なお、この異常判定処理は、変速期間以外に実行することもできる。これはたとえば、解放状態とされている摩擦係合要素を解放状態に維持する条件でソレノイドバルブ28aを微小に振動させるべくソレノイドバルブ28aに流れる電流を微小に振動させる際の電流の挙動に基づき異常の有無を判定することによって実現できる。
・異常判定処理としては、S62の処理に限らない。たとえば、ソレノイドバルブ28aに流れる電流の挙動に基づき異常の有無を判定するものであってもよい。ここで、ソレノイドバルブ28aに流れる電流の指令値をステップ的に増加させる場合の、実際の電流の応答性は、ソレノイドバルブ28aに動作不良が生じている場合に動作不良が生じていない場合と比較して高くなる傾向がある。そのため、たとえば応答速度に応じて異常の有無を判定できる。なお、この異常判定処理は、変速期間以外に実行することもできる。これはたとえば、解放状態とされている摩擦係合要素を解放状態に維持する条件でソレノイドバルブ28aを微小に振動させるべくソレノイドバルブ28aに流れる電流を微小に振動させる際の電流の挙動に基づき異常の有無を判定することによって実現できる。
・異常判定処理としては、変速制御の異常の有無を判定する処理に限らない。「駆動系装置について」の欄に記載したように、関係規定データDRに基づく行動変数の値に応じて操作される対象となる駆動系装置を内燃機関とする場合、たとえば、内燃機関の周知の異常判定処理を採用すればよい。また、関係規定データDRに基づく行動変数の値に応じて操作される対象となる駆動系装置を回転電機の駆動回路とする場合、たとえば、回転電機や駆動回路の周知の異常判定処理を採用すればよい。
「制限処理について」
・図6の処理では、油温Toilが高温側閾値TH以上の場合、変速時間Tsftに応じた報酬r1がゼロ以外となることを許容したが、これに限らない。
・図6の処理では、油温Toilが高温側閾値TH以上の場合、変速時間Tsftに応じた報酬r1がゼロ以外となることを許容したが、これに限らない。
・図6の処理では、油温Toilが低温側閾値TL以下の場合、変速時間Tsftに応じた報酬r1がゼロ以外となることを許容したが、これに限らない。
・図6の処理では、油温Toilが高温側閾値TH以上の場合、吹き量最大値ΔNm2maxに応じた報酬r2がゼロ以外となることを許容したが、これに限らない。
・図6の処理では、油温Toilが高温側閾値TH以上の場合、吹き量最大値ΔNm2maxに応じた報酬r2がゼロ以外となることを許容したが、これに限らない。
・図6の処理では、油温Toilが低温側閾値TL以下の場合、吹き量最大値ΔNm2maxにかかわらず、吹き量最大値ΔNm2maxに応じた報酬r2をゼロとしたが、これに限らない。
・上記第2の実施形態では、フェーズ3の報酬rをゼロとする場合であっても、グリーディ行動ag以外の行動を採用しえたが、グリーディ行動agのみが採用されるようにしてもよい。
「駆動系装置について」
・関係規定データDRに基づく行動変数の値に応じて操作される対象となる駆動系装置としては、有段の変速装置26に限らない。たとえば無段変速装置であってもよい。またたとえば、内燃機関10であってもよい。またたとえば、第1インバータ23や第2インバータ25等の回転電機の駆動回路であってもよい。こうした場合であっても、異常が生じている場合に強化学習がなされると、関係規定データDRが不適切に更新されるおそれがあることから、上記実施形態の要領で更新を制限することは有効である。また、たとえば極低温時には内燃機関のフリクションが過大となったり、バッテリの出力低下による回転電機の出力低下が生じたりすることから、強化学習がなされると、関係規定データDRが不適切に更新されるおそれがあることから、上記実施形態の要領で更新を制限することは有効である。
・関係規定データDRに基づく行動変数の値に応じて操作される対象となる駆動系装置としては、有段の変速装置26に限らない。たとえば無段変速装置であってもよい。またたとえば、内燃機関10であってもよい。またたとえば、第1インバータ23や第2インバータ25等の回転電機の駆動回路であってもよい。こうした場合であっても、異常が生じている場合に強化学習がなされると、関係規定データDRが不適切に更新されるおそれがあることから、上記実施形態の要領で更新を制限することは有効である。また、たとえば極低温時には内燃機関のフリクションが過大となったり、バッテリの出力低下による回転電機の出力低下が生じたりすることから、強化学習がなされると、関係規定データDRが不適切に更新されるおそれがあることから、上記実施形態の要領で更新を制限することは有効である。
「関係規定データに基づく行動変数の値の選択に用いられる状態について」
・関係規定データに基づく行動変数の値の選択に用いられる状態としては、上記実施形態において例示したものに限らない。たとえば、フェーズ2、フェーズ3についてそれ以前の行動変数の値に依存した状態変数としては、回転速度Nm2に限らず、たとえば吹き量ΔNm2であってもよい。またたとえば、発熱量としてもよい。もっとも、たとえば「更新写像について」の欄に記載したようにprofit sharingのアルゴリズムを用いる場合などには、フェーズ2、フェーズ3についてそれ以前の行動変数の値に依存した状態変数を、行動変数の値の選択に用いられる状態に含めなくてもよい。
・関係規定データに基づく行動変数の値の選択に用いられる状態としては、上記実施形態において例示したものに限らない。たとえば、フェーズ2、フェーズ3についてそれ以前の行動変数の値に依存した状態変数としては、回転速度Nm2に限らず、たとえば吹き量ΔNm2であってもよい。またたとえば、発熱量としてもよい。もっとも、たとえば「更新写像について」の欄に記載したようにprofit sharingのアルゴリズムを用いる場合などには、フェーズ2、フェーズ3についてそれ以前の行動変数の値に依存した状態変数を、行動変数の値の選択に用いられる状態に含めなくてもよい。
・状態変数に、アクセル操作量ACCPを含めることは必須ではない。
・状態変数に、油温Toilを含めることは必須でない。
・状態変数に、フェーズ変数Vpaseを含めることは必須ではない。たとえば変速開始からの時間や入力軸の回転速度、変速変数ΔVsftを状態変数に含めて、都度の行動を指定する行動価値関数Qを構成し、同行動価値関数を用いて強化学習を行ってもよい。その場合、変速期間を予め3つのフェーズに指定しない。
・状態変数に、油温Toilを含めることは必須でない。
・状態変数に、フェーズ変数Vpaseを含めることは必須ではない。たとえば変速開始からの時間や入力軸の回転速度、変速変数ΔVsftを状態変数に含めて、都度の行動を指定する行動価値関数Qを構成し、同行動価値関数を用いて強化学習を行ってもよい。その場合、変速期間を予め3つのフェーズに指定しない。
・たとえば「駆動系装置について」の欄に記載したように、行動変数の値に基づく操作対象を内燃機関や回転電機の駆動回路とする場合、状態に、アクセル操作量ACCP等を含めればよい。
「行動変数について」
・上記実施形態では、フェーズ3の行動変数を、圧力上昇速度としたが、これに限らず、たとえばフェーズ3をさらに細分化してそれら各段階における圧力指令値としてもよい。
・上記実施形態では、フェーズ3の行動変数を、圧力上昇速度としたが、これに限らず、たとえばフェーズ3をさらに細分化してそれら各段階における圧力指令値としてもよい。
・上記実施形態では、圧力指令値や圧力上昇速度を行動変数としたが、これに限らず、たとえばソレノイドバルブ28aへの通電電流の指令値としてもよい。
・たとえば「駆動系装置について」の欄に記載したように、行動変数の値に基づく操作対象を内燃機関とする場合、行動変数には、たとえば燃料噴射量や噴射時期を含めてもよい。またたとえば内燃機関が火花点火式内燃機関の場合には、行動変数に、スロットルバルブや点火時期を含めればよい。
・たとえば「駆動系装置について」の欄に記載したように、行動変数の値に基づく操作対象を内燃機関とする場合、行動変数には、たとえば燃料噴射量や噴射時期を含めてもよい。またたとえば内燃機関が火花点火式内燃機関の場合には、行動変数に、スロットルバルブや点火時期を含めればよい。
・たとえば「駆動系装置について」の欄に記載したように、行動変数の値に基づく操作対象を回転電機の駆動回路とする場合、行動変数に、回転電機のトルクや電流を含めればよい。
「関係規定データについて」
・上記実施形態では、行動価値関数Qを、テーブル形式の関数としたが、これに限らない。たとえば、関数近似器を用いてもよい。
・上記実施形態では、行動価値関数Qを、テーブル形式の関数としたが、これに限らない。たとえば、関数近似器を用いてもよい。
・たとえば、行動価値関数Qを用いる代わりに、方策πを、状態sおよび行動aを独立変数とし、行動aをとる確率を従属変数とする関数近似器にて表現し、関数近似器を定めるパラメータを、報酬rに応じて更新してもよい。
「操作処理について」
・たとえば「関係規定データについて」の欄に記載したように、行動価値関数Qを関数近似器とする場合、上記実施形態におけるテーブル型式の関数の独立変数となる行動についての離散的な値のそれぞれについて、状態sとともに行動価値関数Qに入力することによって、行動価値関数Qを最大化する行動aを選択すればよい。
・たとえば「関係規定データについて」の欄に記載したように、行動価値関数Qを関数近似器とする場合、上記実施形態におけるテーブル型式の関数の独立変数となる行動についての離散的な値のそれぞれについて、状態sとともに行動価値関数Qに入力することによって、行動価値関数Qを最大化する行動aを選択すればよい。
・たとえば「関係規定データについて」の欄に記載したように、方策πを、状態sおよび行動aを独立変数とし、行動aをとる確率を従属変数とする関数近似器とする場合、方策πによって示される確率に基づき行動aを選択すればよい。
「更新写像について」
・S26の処理においては、方策オフ型TD法であるいわゆるQ学習を例示したが、これに限らない。たとえば、方策オン型TD法であるいわゆるSARSA法によるものであってもよい。もっとも、TD法によるものに限らず、たとえば、モンテカルロ法を用いたり、適格度トレース法を用いたりしてもよい。
・S26の処理においては、方策オフ型TD法であるいわゆるQ学習を例示したが、これに限らない。たとえば、方策オン型TD法であるいわゆるSARSA法によるものであってもよい。もっとも、TD法によるものに限らず、たとえば、モンテカルロ法を用いたり、適格度トレース法を用いたりしてもよい。
・報酬に基づく関係規定データの更新写像として、たとえばprofit sharingのアルゴリズムに従った写像を用いてもよい。profit sharingのアルゴリズムに従った写像を用いる例を、図2に例示した処理の変更例とする場合、たとえば次のようにしてもよい。すなわち、報酬の算出を、変速が完了した段階で実行する。そして、算出した報酬を、強化関数に従って、変速にかかわった各状態行動対を定めるルールに割り振る。ここで強化関数としては、たとえば周知の等比減少関数を用いてもよい。特に、変速時間Tsftは、フェーズ3の行動変数の値と強い相関を有することから、変速時間Tsftに応じた報酬を分配する場合には、強化関数として等比減少関数を用いることが特に有効である。もっとも、等比減少関数に限らない。たとえば、「報酬算出処理について」の欄に記載したように発熱量に基づき報酬を与える場合、発熱量がフェーズ1の行動変数の値と強く相関を有することに鑑み、発熱量に応じた報酬のフェーズ1への配分が最も大きくなるようにしてもよい。
・たとえば「関係規定データについて」の欄に記載したように、方策πを関数近似器を用いて表現し、これを報酬rに基づき直接更新する場合には、方策勾配法等を用いて更新写像を構成すればよい。
・行動価値関数Qと方策πとのうちのいずれか一方のみを、報酬rによる直接の更新対象とするものに限らない。たとえば、アクター・クリティック法のように、行動価値関数Qおよび方策πをそれぞれ更新してもよい。また、アクター・クリティック法においては、これに限らず、たとえば行動価値関数Qに代えて価値関数Vを更新対象としてもよい。
「報酬算出処理について」
・上記実施形態では、変速時間Tsftが短い場合に長い場合よりも大きい報酬を与える処理と、吹き量ΔNm2が小さい場合に大きい場合よりも大きい報酬を与える処理とを実行したが、それら2つを実行する代わりに、それら2つに関しては、それらのいずれか一方のみを実行してもよい。
・上記実施形態では、変速時間Tsftが短い場合に長い場合よりも大きい報酬を与える処理と、吹き量ΔNm2が小さい場合に大きい場合よりも大きい報酬を与える処理とを実行したが、それら2つを実行する代わりに、それら2つに関しては、それらのいずれか一方のみを実行してもよい。
・変速比の切り替え期間における摩擦係合要素の発熱量が小さい場合に大きい場合よりも大きい報酬を与える処理を報酬算出処理に含めてもよい。
・たとえば「行動変数について」の欄に記載したように、回転電機のトルクや出力を行動変数とする場合、バッテリの充電率が所定範囲内にある場合にない場合よりも大きい報酬を与える処理や、バッテリの温度が所定範囲内にある場合にない場合よりも大きい報酬を与える処理を含めてもよい。
・たとえば「行動変数について」の欄に記載したように、回転電機のトルクや出力を行動変数とする場合、バッテリの充電率が所定範囲内にある場合にない場合よりも大きい報酬を与える処理や、バッテリの温度が所定範囲内にある場合にない場合よりも大きい報酬を与える処理を含めてもよい。
・たとえば「行動変数について」の欄に記載したように、スロットルバルブ等を行動変数とする場合、アクセル操作による加速要求に対するレスポンスが高い場合に低い場合よりも大きい報酬を与える処理を含めてもよい。なお、ここでのレスポンスは、たとえば吸入空気量等から把握される内燃機関のトルクの上昇速度によって把握できる。
「車両用制御システムについて」
・図8に示した例では、方策πに基づく行動を決定する処理(S16,S28の処理)を、車両側で実行したが、これに限らない。たとえば、車両VC1からS12の処理によって取得したデータを送信することとし、データ解析センター90が、送信されたデータを用いて行動aを決定し、決定した行動を車両VC1に送信してもよい。
・図8に示した例では、方策πに基づく行動を決定する処理(S16,S28の処理)を、車両側で実行したが、これに限らない。たとえば、車両VC1からS12の処理によって取得したデータを送信することとし、データ解析センター90が、送信されたデータを用いて行動aを決定し、決定した行動を車両VC1に送信してもよい。
・車両用制御システムとしては、制御装置40およびデータ解析センター90によって構成されるものに限らない。たとえば、データ解析センター90に代えて、ユーザの携帯端末を用いてもよい。また、制御装置40およびデータ解析センター90と携帯端末とによって車両用制御システムを構成してもよい。これは、たとえばS16,S28の処理を携帯端末によって実行することにより実現できる。
「実行装置について」
・実行装置としては、CPU42(92)とROM44(94)とを備えて、ソフトウェア処理を実行するものに限らない。たとえば、上記実施形態においてソフトウェア処理されたものの少なくとも一部を、ハードウェア処理するたとえばASIC等の専用のハードウェア回路を備えてもよい。すなわち、実行装置は、以下の(a)~(c)のいずれかの構成であればよい。(a)上記処理の全てを、プログラムに従って実行する処理装置と、プログラムを記憶するROM等のプログラム格納装置とを備える。(b)上記処理の一部をプログラムに従って実行する処理装置およびプログラム格納装置と、残りの処理を実行する専用のハードウェア回路とを備える。(c)上記処理の全てを実行する専用のハードウェア回路を備える。ここで、処理装置およびプログラム格納装置を備えたソフトウェア実行装置や、専用のハードウェア回路は複数であってもよい。
・実行装置としては、CPU42(92)とROM44(94)とを備えて、ソフトウェア処理を実行するものに限らない。たとえば、上記実施形態においてソフトウェア処理されたものの少なくとも一部を、ハードウェア処理するたとえばASIC等の専用のハードウェア回路を備えてもよい。すなわち、実行装置は、以下の(a)~(c)のいずれかの構成であればよい。(a)上記処理の全てを、プログラムに従って実行する処理装置と、プログラムを記憶するROM等のプログラム格納装置とを備える。(b)上記処理の一部をプログラムに従って実行する処理装置およびプログラム格納装置と、残りの処理を実行する専用のハードウェア回路とを備える。(c)上記処理の全てを実行する専用のハードウェア回路を備える。ここで、処理装置およびプログラム格納装置を備えたソフトウェア実行装置や、専用のハードウェア回路は複数であってもよい。
「記憶装置について」
・上記実施形態では、関係規定データDRが記憶される記憶装置と、学習プログラムDLPや学習サブプログラムDLPa、学習メインプログラムDLPbが記憶される記憶装置(ROM44,94)とを別の記憶装置としたが、これに限らない。
・上記実施形態では、関係規定データDRが記憶される記憶装置と、学習プログラムDLPや学習サブプログラムDLPa、学習メインプログラムDLPbが記憶される記憶装置(ROM44,94)とを別の記憶装置としたが、これに限らない。
「車両について」
・車両としては、シリーズ・パラレルハイブリッド車に限らない。たとえばシリーズハイブリッド車や、パラレルハイブリッド車であってもよい。なお、車載回転機として、内燃機関とモータジェネレータとを備えるものにも限らない。たとえば内燃機関を備えるもののモータジェネレータを備えない車両であってもよく、またたとえばモータジェネレータを備えるものの内燃機関を備えない車両であってもよい。
・車両としては、シリーズ・パラレルハイブリッド車に限らない。たとえばシリーズハイブリッド車や、パラレルハイブリッド車であってもよい。なお、車載回転機として、内燃機関とモータジェネレータとを備えるものにも限らない。たとえば内燃機関を備えるもののモータジェネレータを備えない車両であってもよく、またたとえばモータジェネレータを備えるものの内燃機関を備えない車両であってもよい。
10…内燃機関
20…動力分割装置
22…第1モータジェネレータ
24…第2モータジェネレータ
26…変速装置
40…制御装置
90…データ解析センター
20…動力分割装置
22…第1モータジェネレータ
24…第2モータジェネレータ
26…変速装置
40…制御装置
90…データ解析センター
Claims (8)
- 実行装置および記憶装置を備え、
前記記憶装置には、車両の状態と前記車両に搭載されている駆動系装置の操作に関する変数である行動変数との関係を規定するためのデータである関係規定データが記憶されており、
前記実行装置は、
センサの検出値に基づく前記状態を取得する取得処理と、
前記取得処理によって取得された前記状態と前記関係規定データとによって定まる前記行動変数の値に基づき前記駆動系装置を操作する操作処理と、
前記取得処理によって取得された前記状態に基づく前記駆動系装置の状態が所定の基準を満たす場合に満たさない場合よりも大きい報酬を与える報酬算出処理と、
前記取得処理によって取得された前記状態、前記駆動系装置の操作に用いられた前記行動変数の値、および該操作に対応する前記報酬を予め定められた更新写像への入力とし、前記関係規定データを更新する更新処理と、
通常時と比較して前記駆動系装置の駆動に制約がある場合、前記更新処理による前記関係規定データの更新量が小さくなる側に前記更新処理の実行を制限する制限処理と、
を実行し、
前記更新写像は、前記関係規定データに従って前記駆動系装置が操作される場合の前記報酬についての期待収益を増加させるように更新された前記関係規定データを出力するものである車両用制御装置。 - 前記実行装置は、前記駆動系装置の異常の有無を判定する異常判定処理を実行し、
前記制限処理は、前記異常判定処理によって異常があると判定される場合に通常時と比較して前記駆動系装置の駆動に制約がある場合であるとして、前記更新処理の実行を制限する処理を含む請求項1記載の車両用制御装置。 - 前記駆動系装置は、変速装置を含み、
前記制限処理は、前記変速装置の作動油の温度が高温側閾値以上である場合に通常時と比較して前記駆動系装置の駆動に制約がある場合であるとして、前記更新量を制限する処理を含む請求項1または2記載の車両用制御装置。 - 前記駆動系装置は、変速装置を含み、
前記制限処理は、前記変速装置の作動油の温度が低温側閾値以下である場合に通常時と比較して前記駆動系装置の駆動に制約がある場合であるとして、前記更新量を制限する処理を含む請求項1~3のいずれか1項に記載の車両用制御装置。 - 前記制限処理は、前記更新量をゼロとする処理である請求項1~4のいずれか1項に記載の車両用制御装置。
- 請求項1~5のいずれか1項に記載の前記実行装置および前記記憶装置を備え、
前記実行装置は、前記車両に搭載される第1実行装置と、車載装置とは別の第2実行装置と、を含み、
前記第1実行装置は、少なくとも前記取得処理および前記操作処理を実行し、
前記第2実行装置は、少なくとも前記更新処理を実行する車両用制御システム。 - 請求項6記載の車両用制御システムにおける第1実行装置を備える車両用制御装置。
- 請求項6記載の車両用制御システムにおける第2実行装置を備える車両用学習装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020109675A JP2022007027A (ja) | 2020-06-25 | 2020-06-25 | 車両用制御装置、車両用制御システム、および車両用学習装置 |
CN202110581269.3A CN114103916A (zh) | 2020-06-25 | 2021-05-27 | 车辆用控制装置、车辆用控制系统以及车辆用学习装置 |
US17/332,206 US11420644B2 (en) | 2020-06-25 | 2021-05-27 | Vehicle control device, vehicle control system, and vehicle learning device |
DE102021115778.1A DE102021115778A1 (de) | 2020-06-25 | 2021-06-18 | Fahrzeugsteuerungsvorrichtung, fahrzeugsteuerungssytem und fahrzeuglernvorrichtung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020109675A JP2022007027A (ja) | 2020-06-25 | 2020-06-25 | 車両用制御装置、車両用制御システム、および車両用学習装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022007027A true JP2022007027A (ja) | 2022-01-13 |
Family
ID=78827127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020109675A Pending JP2022007027A (ja) | 2020-06-25 | 2020-06-25 | 車両用制御装置、車両用制御システム、および車両用学習装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11420644B2 (ja) |
JP (1) | JP2022007027A (ja) |
CN (1) | CN114103916A (ja) |
DE (1) | DE102021115778A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11603111B2 (en) * | 2019-10-18 | 2023-03-14 | Toyota Jidosha Kabushiki Kaisha | Vehicle controller, vehicle control system, and learning device for vehicle |
JP6744597B1 (ja) * | 2019-10-18 | 2020-08-19 | トヨタ自動車株式会社 | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 |
JP7136066B2 (ja) * | 2019-11-15 | 2022-09-13 | トヨタ自動車株式会社 | 車両の制御装置 |
JP7331789B2 (ja) * | 2020-06-25 | 2023-08-23 | トヨタ自動車株式会社 | 車両用制御装置、車両用制御システム、車両用学習装置、および車両用学習方法 |
KR20220132864A (ko) * | 2021-03-24 | 2022-10-04 | 현대자동차주식회사 | 차량 및 차량 제어 방법 |
DE102022116467A1 (de) | 2022-07-01 | 2024-01-04 | Dr. Ing. H.C. F. Porsche Aktiengesellschaft | Computerimplementiertes Verfahren zur Veränderung einer Formel zur Berechnung berechneter Betriebsparameter einer elektrischen Antriebseinheit |
DE102022117623A1 (de) | 2022-07-14 | 2024-01-25 | Dr. Ing. H.C. F. Porsche Aktiengesellschaft | Computerimplementiertes Verfahren zur Anpassung von Kalibrierungsdaten einer Steuerungseinheit für einen elektrischen Antrieb eines Kraftfahrzeugs |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254505A (ja) * | 1997-03-14 | 1998-09-25 | Toyota Motor Corp | 自動制御装置 |
JP2007187300A (ja) * | 2006-01-16 | 2007-07-26 | Aisin Aw Co Ltd | 自動変速機の変速制御装置 |
JP6705540B1 (ja) * | 2019-08-22 | 2020-06-03 | トヨタ自動車株式会社 | 車両用学習システム、車両用制御装置、および車両用学習装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6549815B1 (en) | 1999-03-02 | 2003-04-15 | Yamaha Hatsudoki Kabushiki Kaisha | Method and apparatus for optimizing overall characteristics of device, using heuristic method |
JP2000250602A (ja) | 1999-03-02 | 2000-09-14 | Yamaha Motor Co Ltd | 総合特性最適化装置 |
JP4555219B2 (ja) * | 2005-12-20 | 2010-09-29 | ヤマハ発動機株式会社 | 航走制御装置およびそれを備えた船舶 |
SE534457C2 (sv) * | 2009-12-17 | 2011-08-30 | Scania Cv Ab | Förfarande och system för framförande av ett fordon vid reducerat behov av framdrivningseffekt |
JP6196857B2 (ja) * | 2013-09-13 | 2017-09-13 | ジヤトコ株式会社 | 車両の制御装置 |
JP6848949B2 (ja) * | 2018-10-25 | 2021-03-24 | トヨタ自動車株式会社 | 制御支援装置、車両、および制御支援システム |
JP6673520B1 (ja) * | 2019-08-26 | 2020-03-25 | トヨタ自動車株式会社 | 内燃機関の状態検出システム、データ解析装置、及び車両 |
JP6547991B1 (ja) * | 2019-02-20 | 2019-07-24 | トヨタ自動車株式会社 | 触媒温度推定装置、触媒温度推定システム、データ解析装置、および内燃機関の制御装置 |
JP6809587B1 (ja) * | 2019-10-18 | 2021-01-06 | トヨタ自動車株式会社 | 車両用制御装置 |
-
2020
- 2020-06-25 JP JP2020109675A patent/JP2022007027A/ja active Pending
-
2021
- 2021-05-27 US US17/332,206 patent/US11420644B2/en active Active
- 2021-05-27 CN CN202110581269.3A patent/CN114103916A/zh active Pending
- 2021-06-18 DE DE102021115778.1A patent/DE102021115778A1/de not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10254505A (ja) * | 1997-03-14 | 1998-09-25 | Toyota Motor Corp | 自動制御装置 |
JP2007187300A (ja) * | 2006-01-16 | 2007-07-26 | Aisin Aw Co Ltd | 自動変速機の変速制御装置 |
JP6705540B1 (ja) * | 2019-08-22 | 2020-06-03 | トヨタ自動車株式会社 | 車両用学習システム、車両用制御装置、および車両用学習装置 |
Also Published As
Publication number | Publication date |
---|---|
US20210403014A1 (en) | 2021-12-30 |
US11420644B2 (en) | 2022-08-23 |
CN114103916A (zh) | 2022-03-01 |
DE102021115778A1 (de) | 2021-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022007027A (ja) | 車両用制御装置、車両用制御システム、および車両用学習装置 | |
CN113847419B (zh) | 车辆用控制装置、车辆用控制系统、车辆用学习装置及车辆用学习方法 | |
US11236819B1 (en) | Gear-shift control data generation method, gearshift control device, and gear-shift control system | |
CN112682182B (zh) | 车辆用控制装置、车辆用控制系统以及车辆控制方法 | |
JP2021116783A (ja) | 車両用制御装置および車両用制御システム | |
JP7136073B2 (ja) | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 | |
CN113006951B (zh) | 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置 | |
CN113266479B (zh) | 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置 | |
JP7331704B2 (ja) | 車両用制御データの生成方法、車両用制御装置、および車両用制御システム | |
JP2021067201A (ja) | 車両用制御装置、車両用制御システム、および車両用学習装置 | |
CN112682196B (zh) | 车辆用控制装置、车辆用控制系统、以及车辆用学习装置 | |
US11421781B2 (en) | Oil pressure learning method of automatic transmission, control device thereof, and control system thereof | |
JP7327198B2 (ja) | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 | |
CN113266481A (zh) | 车辆控制方法、车辆用控制装置以及服务器 | |
JP7205460B2 (ja) | 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置 | |
CN113580914A (zh) | 油状态推定装置、车辆用控制装置及系统、及数据分析装置 | |
TW202128467A (zh) | 控制車輛的方法、車輛控制器、和伺服器 | |
US7158868B2 (en) | Method and device for consistent bidirectional analysis of engine characteristics map data | |
JP2022077245A (ja) | ロックアップクラッチの制御装置 | |
JP2023030982A (ja) | 車載装置の異常箇所特定システム、および車載装置の異常箇所特定装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220523 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230201 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230725 |