CN112677984A - 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统 - Google Patents

车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统 Download PDF

Info

Publication number
CN112677984A
CN112677984A CN202011094561.4A CN202011094561A CN112677984A CN 112677984 A CN112677984 A CN 112677984A CN 202011094561 A CN202011094561 A CN 202011094561A CN 112677984 A CN112677984 A CN 112677984A
Authority
CN
China
Prior art keywords
value
reward
vehicle
state
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011094561.4A
Other languages
English (en)
Inventor
桥本洋介
片山章弘
大城裕太
杉江和纪
冈尚哉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN112677984A publication Critical patent/CN112677984A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D45/00Electrical control not provided for in groups F02D41/00 - F02D43/00
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units, or advanced driver assistance systems for ensuring comfort, stability and safety or drive control systems for propelling or retarding the vehicle
    • B60W30/18Propelling the vehicle
    • B60W30/19Improvement of gear change, e.g. by synchronisation or smoothing gear shift
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60KARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
    • B60K7/00Disposition of motor in, or adjacent to, traction wheel
    • B60K7/0007Disposition of motor in, or adjacent to, traction wheel the motor being electric
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • B60W20/10Controlling the power contribution of each of the prime movers to meet required power demand
    • B60W20/15Control strategies specially adapted for achieving a particular effect
    • B60W20/16Control strategies specially adapted for achieving a particular effect for reducing engine exhaust emissions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units, or advanced driver assistance systems for ensuring comfort, stability and safety or drive control systems for propelling or retarding the vehicle
    • B60W30/18Propelling the vehicle
    • B60W30/188Controlling power parameters of the driveline, e.g. determining the required power
    • B60W30/1882Controlling power parameters of the driveline, e.g. determining the required power characterised by the working point of the engine, e.g. by using engine output chart
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N11/00Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity
    • F01N11/002Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity the diagnostic devices measuring or estimating temperature or pressure in, or downstream of the exhaust apparatus
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D11/00Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated
    • F02D11/06Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated characterised by non-mechanical control linkages, e.g. fluid control linkages or by control linkages with power drive or assistance
    • F02D11/10Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated characterised by non-mechanical control linkages, e.g. fluid control linkages or by control linkages with power drive or assistance of the electric type
    • F02D11/105Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated characterised by non-mechanical control linkages, e.g. fluid control linkages or by control linkages with power drive or assistance of the electric type characterised by the function converting demand to actuation, e.g. a map indicating relations between an accelerator pedal position and throttle valve opening or target engine torque
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/021Introducing corrections for particular conditions exterior to the engine
    • F02D41/0215Introducing corrections for particular conditions exterior to the engine in relation with elements of the transmission
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1401Introducing closed-loop corrections characterised by the control or regulation method
    • F02D41/1405Neural network control
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1401Introducing closed-loop corrections characterised by the control or regulation method
    • F02D41/1406Introducing closed-loop corrections characterised by the control or regulation method with use of a optimisation method, e.g. iteration
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1438Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/24Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means
    • F02D41/2406Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means using essentially read only memories
    • F02D41/2425Particular ways of programming the data
    • F02D41/2429Methods of calibrating or learning
    • F02D41/2451Methods of calibrating or learning characterised by what is learned or calibrated
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02PIGNITION, OTHER THAN COMPRESSION IGNITION, FOR INTERNAL-COMBUSTION ENGINES; TESTING OF IGNITION TIMING IN COMPRESSION-IGNITION ENGINES
    • F02P5/00Advancing or retarding ignition; Control therefor
    • F02P5/04Advancing or retarding ignition; Control therefor automatically, as a function of the working conditions of the engine or vehicle or of the atmospheric conditions
    • F02P5/145Advancing or retarding ignition; Control therefor automatically, as a function of the working conditions of the engine or vehicle or of the atmospheric conditions using electrical means
    • F02P5/15Digital data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • B60W20/10Controlling the power contribution of each of the prime movers to meet required power demand
    • B60W20/11Controlling the power contribution of each of the prime movers to meet required power demand using model predictive control [MPC] strategies, i.e. control methods based on models predicting performance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W20/00Control systems specially adapted for hybrid vehicles
    • B60W20/10Controlling the power contribution of each of the prime movers to meet required power demand
    • B60W20/12Controlling the power contribution of each of the prime movers to meet required power demand using control strategies taking into account route information
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units, or advanced driver assistance systems for ensuring comfort, stability and safety or drive control systems for propelling or retarding the vehicle
    • B60W30/18Propelling the vehicle
    • B60W30/20Reducing vibrations in the driveline
    • B60W2030/206Reducing vibrations in the driveline related or induced by the engine
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • B60W2050/0013Optimal controllers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • B60W2050/0014Adaptive controllers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0002Automatic control, details of type of controller or control system architecture
    • B60W2050/0018Method for the design of a control system
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0026Lookup tables or parameter maps
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0062Adapting control system settings
    • B60W2050/0075Automatic parameter input, automatic initialising or calibrating means
    • B60W2050/0083Setting, resetting, calibration
    • B60W2050/0088Adaptive recalibration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/06Combustion engines, Gas turbines
    • B60W2510/0604Throttle position
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/06Combustion engines, Gas turbines
    • B60W2510/0657Engine torque
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/06Combustion engines, Gas turbines
    • B60W2510/0666Engine power
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/08Electric propulsion units
    • B60W2510/083Torque
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/08Electric propulsion units
    • B60W2510/085Power
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/10Change speed gearings
    • B60W2510/1005Transmission ratio engaged
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/10Change speed gearings
    • B60W2510/1015Input shaft speed, e.g. turbine speed
    • B60W2510/102Input speed change rate
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/10Change speed gearings
    • B60W2510/104Output speed
    • B60W2510/1045Output speed change rate
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/10Change speed gearings
    • B60W2510/1075Change speed gearings fluid pressure, e.g. oil pressure
    • B60W2510/108Change speed gearings fluid pressure, e.g. oil pressure pressure of control fluid
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/24Energy storage means
    • B60W2510/242Energy storage means for electrical energy
    • B60W2510/244Charge state
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • B60W2520/105Longitudinal acceleration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/10Accelerator pedal position
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/0098Details of control systems ensuring comfort, safety or stability not otherwise provided for
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60YINDEXING SCHEME RELATING TO ASPECTS CROSS-CUTTING VEHICLE TECHNOLOGY
    • B60Y2300/00Purposes or special features of road vehicle drive control systems
    • B60Y2300/47Engine emissions
    • B60Y2300/474Catalyst warm up
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N11/00Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity
    • F01N11/002Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity the diagnostic devices measuring or estimating temperature or pressure in, or downstream of the exhaust apparatus
    • F01N11/005Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity the diagnostic devices measuring or estimating temperature or pressure in, or downstream of the exhaust apparatus the temperature or pressure being estimated, e.g. by means of a theoretical model
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N11/00Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity
    • F01N11/007Monitoring or diagnostic devices for exhaust-gas treatment apparatus, e.g. for catalytic activity the diagnostic devices measuring oxygen or air concentration downstream of the exhaust apparatus
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N13/00Exhaust or silencing apparatus characterised by constructional features ; Exhaust or silencing apparatus, or parts thereof, having pertinent characteristics not provided for in, or of interest apart from, groups F01N1/00 - F01N5/00, F01N9/00, F01N11/00
    • F01N13/008Mounting or arrangement of exhaust sensors in or on exhaust apparatus
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2590/00Exhaust or silencing apparatus adapted to particular use, e.g. for military applications, airplanes, submarines
    • F01N2590/11Exhaust or silencing apparatus adapted to particular use, e.g. for military applications, airplanes, submarines for hybrid vehicles
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/04Methods of control or diagnosing
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/04Methods of control or diagnosing
    • F01N2900/0402Methods of control or diagnosing using adaptive learning
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/04Methods of control or diagnosing
    • F01N2900/0412Methods of control or diagnosing using pre-calibrated maps, tables or charts
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/04Methods of control or diagnosing
    • F01N2900/0416Methods of control or diagnosing using the state of a sensor, e.g. of an exhaust gas sensor
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/04Methods of control or diagnosing
    • F01N2900/0418Methods of control or diagnosing using integration or an accumulated value within an elapsed period
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/06Parameters used for exhaust control or diagnosing
    • F01N2900/08Parameters used for exhaust control or diagnosing said parameters being related to the engine
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/06Parameters used for exhaust control or diagnosing
    • F01N2900/10Parameters used for exhaust control or diagnosing said parameters being related to the vehicle or its components
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/06Parameters used for exhaust control or diagnosing
    • F01N2900/12Parameters used for exhaust control or diagnosing said parameters being related to the vehicle exterior
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/06Parameters used for exhaust control or diagnosing
    • F01N2900/14Parameters used for exhaust control or diagnosing said parameters being related to the exhaust gas
    • F01N2900/1411Exhaust gas flow rate, e.g. mass flow rate or volumetric flow rate
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N2900/00Details of electrical control or of the monitoring of the exhaust gas treating apparatus
    • F01N2900/06Parameters used for exhaust control or diagnosing
    • F01N2900/16Parameters used for exhaust control or diagnosing said parameters being related to the exhaust apparatus, e.g. particulate filter or catalyst
    • F01N2900/1621Catalyst conversion efficiency
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N9/00Electrical control of exhaust gas treating apparatus
    • F01N9/005Electrical control of exhaust gas treating apparatus using models instead of sensors to determine operating characteristics of exhaust systems, e.g. calculating catalyst temperature instead of measuring it directly
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N9/00Electrical control of exhaust gas treating apparatus
    • F01N9/007Storing data relevant to operation of exhaust systems for later retrieval and analysis, e.g. to research exhaust system malfunctions
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D2200/00Input parameters for engine control
    • F02D2200/02Input parameters for engine control the parameters being related to the engine
    • F02D2200/08Exhaust gas treatment apparatus parameters
    • F02D2200/0802Temperature of the exhaust gas treatment apparatus
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D2200/00Input parameters for engine control
    • F02D2200/02Input parameters for engine control the parameters being related to the engine
    • F02D2200/10Parameters related to the engine output, e.g. engine torque or engine speed
    • F02D2200/1002Output torque
    • F02D2200/1004Estimation of the output torque
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1438Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor
    • F02D41/1444Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor characterised by the characteristics of the combustion gases
    • F02D41/146Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor characterised by the characteristics of the combustion gases the characteristics being an NOx content or concentration
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1438Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor
    • F02D41/1444Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor characterised by the characteristics of the combustion gases
    • F02D41/1466Introducing closed-loop corrections using means for determining characteristics of the combustion gases; Sensors therefor characterised by the characteristics of the combustion gases the characteristics being a soot concentration or content

Abstract

提供一种车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统。车辆用控制数据的生成方法包括:存储装置存储关系规定数据;执行装置对内燃机的操作部进行操作;所述执行装置取得对所述车辆的状态进行检测的传感器的检测值,所述执行装置基于所述检测值来算出奖励;以及所述执行装置使用预先确定的更新映射来对所述关系规定数据进行更新,所述更新映射将基于所述检测值的所述车辆的状态、所述操作部的操作中所使用了的操作量以及与该操作对应的所述奖励作为自变量,返回以使关于按照所述关系规定数据来操作所述操作部的情况下所算出的所述奖励的期待收益增加的方式进行了更新的所述关系规定数据。

Description

车辆用控制数据的生成方法、车辆用控制装置、车辆用控制 系统
技术领域
本发明涉及车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统。
背景技术
例如日本特开2016-6327记载了一种控制装置,其基于对加速踏板的操作量进行了滤波处理而得到的值,对作为搭载于车辆的内燃机的操作部的节气门进行操作。
发明内容
然而,上述滤波需要根据加速踏板的操作量来将搭载于车辆的内燃机的节气门的操作量设定为适当的操作量,因此,其适配需要熟练人员花费许多工时。这样,要适配与车辆内的状态相应的内燃机等的驱动系统的操作量等,熟练人员花费了许多工时。
本发明的第1技术方案涉及的车辆用控制数据的生成方法,包括:存储装置存储关系规定数据,所述关系规定数据是对具备内燃机的车辆的状态与所述内燃机的操作部的操作量之间的关系进行规定的数据,所述车辆的状态包括了所述内燃机的状态;以及执行装置对所述操作部进行操作;所述执行装置取得对所述车辆的状态进行检测的传感器的检测值;所述执行装置基于所述检测值,算出基于燃料消耗率、排气特性以及驾驶性能中的至少一个观点的奖励;以及所述执行装置使用预先确定的更新映射来更新所述关系规定数据,所述更新映射将基于所述检测值的所述车辆的状态、所述操作部的操作中所使用了的操作量以及与该操作对应的所述奖励作为自变量,返回以使关于按照所述关系规定数据来操作所述操作部的情况下所算出的所述奖励的期待收益增加的方式进行了更新的所述关系规定数据。
在上述方法中,通过算出伴随着操作部的操作的奖励,能够掌握通过该操作能得到什么样的奖励。并且,通过基于奖励,根据经过了强化学习的更新映射来对关系规定数据进行更新,从而能够对车辆的状态与内燃机的操作部的操作量之间的关系进行设定。因此,能够在设定车辆的状态与内燃机的操作部的操作量之间的关系时,减少对熟练人员要求的工时。
在上述第一技术方案中,所述排气特性为预定特性的情况下的所述奖励也可以比所述排气特性不是预定特性的情况下的所述奖励大。所述预定特性也可以包括氮氧化物的排出量处于预定范围内、未燃燃料的排出量处于预定范围内、颗粒状物质的排出量处于预定范围内、以及设置于所述内燃机的排气通路的催化剂的温度处于预定范围内中的至少一个。
在上述方法中,能够通过强化学习对在使排气特性为预定特性上适当的关系规定数据进行学习。
在上述第一技术方案中,所述执行装置也可以以使得满足所述车辆的加速度处于第一预定范围内的情况下的根据所述驾驶性能的观点而定量化了的奖励比所述车辆的加速度为所述第一预定范围外的情况下的所述奖励大、所述车辆的加加速度处于第二预定范围内的情况下的根据所述驾驶性能的观点而定量化了的奖励比所述加加速度为所述第二预定范围外的情况下的所述奖励大、以及所述内燃机产生的声音的大小处于第三预定范围内的情况下的根据所述驾驶性能的观点而定量化了的奖励比所述声音的大小为所述第三预定范围外的情况下的所述奖励大中的至少一个的方式算出所述奖励。
在上述方法中,能够通过强化学习对在满足驾驶性能的要求上适当的关系规定数据进行学习。
在上述第一技术方案中,车辆用控制数据的生成方法也可以还包括:所述执行装置通过基于被更新了的所述关系规定数据将所述车辆的状态与使所述期待收益最大化的所述操作量一对一地关联,从而生成将所述车辆的状态作为自变量、并返回使所述期待收益最大化的所述操作量的控制用映射数据。
在上述方法中,基于通过强化学习进行了学习的关系规定数据,生成控制用映射数据。因此,通过将该控制用映射数据安装于控制装置,能够基于车辆的状态,简单地设定使期待收益最大化的操作量。
本发明的第二技术方案涉及的车辆用控制装置包括构成为执行所述第一技术方案涉及的生成方法的存储装置和执行装置,其中,所述执行装置构成为基于根据所述关系规定数据和所述车辆的状态确定的所述操作量来对所述操作部进行操作。
在上述构成中,车辆用控制装置能够伴随着搭载于车辆的内燃机的操作部的操作,对关系规定数据进行学习。
在上述第二技术方案中,所述执行装置也可以构成为:取得所述内燃机的输出和转矩这两个中的至少一个的要求值和算出值来作为所述检测值,以使得所述要求值和所述算出值之差的绝对值为预定值以下的情况下的所述奖励比所述绝对值大于所述预定值的情况下的所述奖励大的方式算出所述奖励。
在上述构成中,能够在使内燃机的转矩、输出接近要求值这一条件下,对在将燃料消耗率、排气特性以及驾驶性能中的至少一个控制为作为目标的值上适当的关系规定数据进行学习。
在上述第二技术方案中,所述车辆也可以具备变速装置,所述变速装置构成为对所述内燃机的曲轴的转速进行变速来输出,并且构成为能够改变变速比。由所述关系规定数据规定的关系也可以包括所述变速装置的状态与所述变速装置的操作量之间的关系。所述执行装置也可以构成为:取得构成为对所述变速装置的状态进行检测的传感器所检测到的值来作为所述检测值,以使得满足所述变速装置的变速比的切换所需要的时间为预定时间以内的情况下的所述奖励比所述时间超过所述预定时间的情况下的所述奖励大、所述变速装置的输入轴的转速的变化速度的绝对值为输入侧预定值以下的情况下的所述奖励比所述输入轴的转速的变化速度的绝对值超过所述输入侧预定值的情况下的所述奖励大、所述变速装置的输出轴的转速的变化速度的绝对值为输出侧预定值以下的情况下的所述奖励比所述输出轴的转速的速度变化的绝对值超过所述输出侧预定值的情况下的所述奖励大、以及通过所述变速装置的电磁阀(80a)调整的油压满足预定条件的情况下的所述奖励比所述油压不满足所述预定条件的情况下的所述奖励大中的至少一个的方式算出所述奖励,使用将与所述变速装置的状态有关的所述检测值作为自变量的所述更新映射,对由所述关系规定数据规定的所述变速装置的状态与所述变速装置的操作量之间的关系进行更新。
在上述构成中,能够对在基于变速装置的状态来确定变速装置的操作量上适当的关系规定数据进行学习。
在上述第二技术方案中,所述车辆也可以具备构成为对驱动轮提供动力的旋转电机。由所述关系规定数据规定的关系也可以包括向所述旋转电机供给电力的蓄电装置的状态与所述旋转电机的控制量之间的关系。所述执行装置也可以构成为:对所述旋转电机的驱动电路进行操作,取得所述蓄电装置的状态来作为所述检测值,以使得所述蓄电装置的状态处于预定范围内的情况下的所述奖励比所述蓄电装置的状态成为预定范围外的情况下的所述奖励大的方式算出所述奖励,通过将所述蓄电装置的状态和所述旋转电机的控制量作为所述更新映射的自变量,从而对由所述关系规定数据规定的所述蓄电装置的状态与所述旋转电机的控制量之间的关系进行更新。
在上述构成中,能够对在基于蓄电装置的状态来确定旋转电机的控制量上适当的关系规定数据进行学习。
在上述第二技术方案中,所述执行装置也可以构成为:取得所述车辆的输出和驱动转矩这两个中的至少一个的要求值和算出值来作为检测值,以使得关于所述车辆的输出和所述驱动转矩这两个中的所述至少一个的所述要求值和所述算出值之差的绝对值为预定值以下的情况下的所述奖励比所述绝对值大于所述预定值的情况下的所述奖励大的方式算出所述奖励。
在上述构成中,能够在使车辆的输出、驱动转矩接近要求值这一条件下,对在将燃料消耗率、排气特性以及驾驶性能中的至少一个控制为作为目标的值上适当的关系规定数据进行学习。
在上述第二技术方案中,所述关系规定数据也可以包括对所述车辆的状态、所述期待收益以及所述操作量的关系进行规定的数据。所述执行装置也可以进一步构成为基于所述检测值和所述关系规定数据,相比于减小所述期待收益的操作量,优先选择增大所述期待收益的操作量。所述执行装置也可以构成为基于所选择的所述操作量来对所述操作部进行操作。
在上述构成中,优选地选择期待收益变大的操作量,因此,能够优先执行期待收益变大的操作。
在上述第二技术方案中,所述关系规定数据也可以是对函数近似器进行规定的数据,所述函数近似器将所述车辆的状态作为自变量、并返回所述操作量的选择概率。所述更新映射也可以包括返回对所述函数近似器进行规定的参数的更新量的映射。
在上述构成中,通过使用关于策略的函数近似器,能够直接地对车辆的状态与操作量之间的关系进行规定。
本发明的第三技术方案涉及的车辆用控制系统包括上述第二技术方案涉及的车辆用控制装置,其中,所述执行装置包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置,所述第1执行装置至少执行所述取得和所述操作,所述第2执行装置至少执行所述更新。
在上述构成中,通过第2执行装置执行更新,相比于第1执行装置也执行更新的情况,能够减少第1执行装置的运算负荷。此外,第2执行装置是有别于车载装置的装置意味着第2执行装置不是车载装置。
在上述第三技术方案中,所述第1执行装置也可以构成为进一步执行:向所述第2执行装置发送与所述检测值有关的数据,接收由所述第2执行装置发送的所述操作量,基于从所述第2执行装置接收到的所述操作量来对所述操作部进行操作。所述第2执行装置也可以构成为进一步执行:接收由所述第1执行装置发送的数据,基于从所述第1执行装置接收到的所述数据和所述关系规定数据来算出所述操作量,发送所算出的所述操作量。
在上述构成中,通过第2执行装置执行操作量算出,从而相比于第1执行装置也执行操作量算出的情况,能够减少第1执行装置的运算负荷。
附图说明
下文将参照附图说明本发明示例性实施例的特征、优点以及技术和产业的意义,其中相同的标号表示同样的要素,并且,其中:
图1是表示第1实施方式涉及的控制装置和车辆的驱动系统的图。
图2是表示该实施方式涉及的控制装置执行的处理的步骤的流程图。
图3是表示该实施方式涉及的生成映射数据的系统的图。
图4是表示该实施方式涉及的学习处理的步骤的流程图。
图5是表示该实施方式涉及的学习处理的一部分的详细的流程图。
图6是表示该实施方式涉及的映射数据的生成处理的步骤的流程图。
图7是表示该实施方式涉及的控制装置执行的处理的步骤的流程图。
图8是表示第2实施方式涉及的控制装置和车辆的驱动系统的图。
图9是表示该实施方式涉及的控制装置执行的处理的框图。
图10是表示该实施方式涉及的控制装置执行的处理的步骤的流程图。
图11是表示该实施方式涉及的控制装置执行的处理的步骤的流程图。
图12是表示第3实施方式涉及的控制装置执行的处理的步骤的流程图。
图13是表示该实施方式涉及的控制装置执行的处理的步骤的流程图。
图14是表示第4实施方式涉及的控制装置和车辆的驱动系统的图。
图15是表示该实施方式涉及的控制装置执行的处理的步骤的流程图。
图16是表示该实施方式涉及的控制装置执行的处理的步骤的流程图。
图17是表示第5实施方式涉及的系统的结构的图。
图18是表示该实施方式涉及的系统执行的处理的步骤的流程图。
图19是表示第6实施方式涉及的系统的结构的图。
图20是表示该实施方式涉及的系统执行的处理的步骤的流程图。
具体实施方式
第1实施方式
以下,参照附图对车辆用控制数据的生成方法涉及的第1实施方式进行说明。
图1中表示本实施方式涉及的控制装置和驱动系统。如图1所示,从内燃机10的进气通路12吸入的空气经由增压器14流向进气通路12的下游侧。在进气通路12中的增压器14的下游设置有节气门16,在进气通路12中的节气门16的下游设置有端口喷射阀18。被吸入到进气通路12的空气、从端口喷射阀18喷射的燃料伴随着进气门20的开阀,流入到由气缸22和活塞24划分的燃烧室26。燃料通过缸内喷射阀28被喷射到燃烧室26。在燃烧室26中,燃料和空气的混合气通过点火装置30的火花放电被供于燃烧。通过燃烧产生的能量经由活塞24被转换为曲轴32的旋转能量。
被供于了燃烧的混合气伴随着排气门34的开阀,被作为排气排出到排气通路36。在排气通路36中的增压器14的下游设置有具有氧吸藏能力的三元催化剂(催化剂38)。另外,排气通路36具备绕过增压器14的绕行通路48,在绕行通路48设置有对其流路截面积进行调整的废气阀(WGV)50。
曲轴32的旋转动力经由正时链条40被传递到进气侧凸轮轴42和排气侧凸轮轴44。此外,在本实施方式中,正时链条40的动力经由可变气门正时装置46被传递到进气侧凸轮轴42。可变气门正时装置46是通过对曲轴32与进气侧凸轮轴42的旋转相位差进行调整来对进气门20的开阀定时进行调整的致动器。
另外,进气通路12经由EGR(exhaust gas recirculation,废气再循环)通路52与排气通路36连接。在EGR通路52设置有对其流路截面积进行调整的EGR阀54。储存于燃料箱60的燃料通过内燃机驱动式泵62汲上来并被供给至端口喷射阀18。另外,储存于燃料箱60的燃料在通过内燃机驱动式泵62汲上来之后,通过电子控制式的高压燃料泵64加压并被供给至缸内喷射阀28。在燃料箱60中产生的燃料蒸汽被滤罐(canister)66捕集。滤罐66经由吹扫通路67与进气通路12连接。在吹扫通路67设置有使作为其上游侧的滤罐66侧的流体排出至作为下游侧的进气通路12侧的吹扫泵68。
在曲轴32上能够经由具备锁止离合器72的转矩转换器70以机械的方式连结有变速装置80的输入轴82。变速装置80使变速比为可变,该变速比是输入轴82的转速与输出轴84的转速之比。即,变速装置80具备电磁阀80a、80b、……,通过根据由电磁阀80a、80b、……调整的油压来切换离合器的接合(engaging)、分离(disengaging),从而能够实现互不相同的变速比。此外,输出轴84以机械的方式连结于驱动轮88。
控制装置90将内燃机10作为控制对象,为了对作为其控制量的转矩、排气成分比率等进行控制,对节气门16、端口喷射阀18、缸内喷射阀28、点火装置30、可变气门正时装置46、WGV50、EGR阀54、高压燃料泵64、吹扫泵68等的内燃机10的操作部进行操作。另外,控制装置90将锁止离合器72的接合状态、变速装置80的变速比作为控制量,对锁止离合器72、电磁阀80a、80b、……进行操作。此外,图1中记载了节气门16、端口喷射阀18、缸内喷射阀28、点火装置30、可变气门正时装置46、WGV50、EGR阀54、高压燃料泵64、吹扫泵68以及锁止离合器72各自的操作信号MS1~MS10。另外,图1所示的操作信号MS11a、MS11b、……分别是电磁阀80a、80b、……的操作信号。
控制装置90在控制量的控制时,对由空气流量计100检测的吸入空气量Ga、由进气温度传感器102检测的进气温度Ta、由增压压力传感器104检测的进气通路12中的增压器14的下游的压力(增压压力Pa)进行参照。另外,控制装置90对由节气门传感器106检测的节气门16的开口度(节气门开口度Tor)、曲轴角传感器108的输出信号Scr进行参照。另外,控制装置90对凸轮角传感器112的输出信号Sca、由水温传感器114检测的内燃机10的冷却水的温度(水温THW)进行参照。另外,控制装置90对上游侧检测值Afu、下游侧检测值Afd进行参照,上游侧检测值Afu是设置在催化剂38的上游侧的上游侧空燃比传感器116的检测值,下游侧检测值Afd是设置在催化剂38的下游侧的下游侧空燃比传感器118的检测值。另外,控制装置90对由输入侧速度传感器120检测的变速装置80的输入轴82的转速(输入转速ωin)、由输出侧速度传感器122检测的变速装置80的输出轴84的转速(输出转速ωout)进行参照。另外,控制装置90对由电磁阀80a调整并由油压传感器124a检测的油压Poila、由电磁阀80b调整并由油压传感器124b检测的油压Poilb等进行参照。另外,控制装置90对由油温传感器126检测的内燃机10的润滑油的温度(油温Toil)、由车速传感器130检测的车辆VC1的行驶速度(车速SPD)、由加速器传感器132检测的加速踏板的操作量(加速器操作量ACCP)进行参照。
控制装置90具备CPU92、ROM94、作为能够电重写的非易失性存储器的存储装置96以及外围电路98,那些部件设为能够通过本地网络99进行通信。此外,外围电路98包括生成对内部的动作进行规定的时钟信号的电路、电源电路、复位电路等。
控制装置90通过CPU92执行存储于ROM94的程序,执行上述控制量的控制。图2中表示控制装置90执行的处理的步骤。对于图2所示的处理,通过CPU92例如以预定周期反复执行存储于ROM94的控制程序94b来实现。此外,以下通过在开头赋予了“S”的数字来记载各处理的步骤编号。
在图2所示的一系列处理中,CPU92首先取得转速NE、填充效率η、增压压力Pa、进气温度Ta、水温THW,油温Toil、下游侧检测值Afd、上游侧检测值Afu、加速器操作量ACCP以及车速SPD(S10)。在此,转速NE通过CPU92基于曲轴角传感器108的输出信号Scr来算出。另外,填充效率η通过CPU92基于转速NE和吸入空气量Ga来算出。此外,填充效率η是确定填充于燃烧室26内的空气量的参数。
然后,CPU92将通过S10的处理取得的值作为输入,通过S12~S28的处理来设定内燃机10的各种操作部的操作量。此外,在此,操作量不限于实际的操作量,例如在进行开环控制以使得成为操作量的情况下、进行反馈控制以使得成为操作量的情况下,有时也将其指令值视为操作量。
详细而言,CPU92通过S12的处理,设定节气门16的开口度的指令值(节气门开口度指令值Tor*),通过S14的处理,设定要求喷射的燃料量(要求喷射量Qf)。另外,CPU92通过S16的处理来设定进气相位差指令值DIN*,通过S18的处理来设定点火正时aig,通过S20的处理来设定喷射分配率Kp,进气相位差指令值DIN*是曲轴32与进气侧凸轮轴42的旋转相位差(进气相位差DIN)的指令值,喷射分配率Kp是要求喷射量Qf中的从端口喷射阀18喷射的燃料量的比率。另外,CPU92通过S22的处理来设定作为WGV50的开口度的指令值的WGV开口度指令值Wgvor,通过S24的处理来设定缸内喷射阀28的燃料喷射的喷射压的指令值(燃压指令值Pf*)。另外,CPU92通过S26的处理来设定作为EGR阀54的开口度的指令值的EGR开口度指令值Egrvor,通过S28的处理来设定吹扫泵68的操作量(吹扫操作量Pg)。
详细而言,CPU92使用图1所示的映射数据96b,执行S12~S28的处理。映射数据96b包括将上述9个操作量分别作为输出变量、并将与通过S10的处理取得的值对应的变量作为输入变量的9个映射数据。CPU92将通过S10的处理取得的值作为输入,使用所对应的映射数据,分别对上述9个操作量进行映射运算。
此外,映射数据是指输入变量的离散的值和分别与输入变量的值对应的输出变量的值的数据组。另外,映射运算例如设为如下处理即可,该处理为:在输入变量的值与映射数据的输入变量的值中的某一个一致的情况下,将所对应的映射数据的输出变量的值作为运算结果,与此相对,在不一致的情况下,将通过映射数据所包含的多个输出变量的值的内插而得到的值作为运算结果。
并且,CPU92为了基于通过S12~S28的处理设定的操作量来对各操作部进行操作,向各操作部分别输出操作信号MS1~MS9(S30)。在此,操作信号MS1~MS9并不只是根据通过S12~S28的处理设定的操作量唯一地确定的操作信号。例如,在本实施方式中,将节气门开口度Tor反馈控制为节气门开口度指令值Tor*,因此,即使节气门开口度指令值Tor*相同,节气门16的操作信号MS1也可能成为各种各样的值。
此外,CPU92在S30的处理完成的情况下,暂时结束图2所示的处理。上述映射数据96b是利用强化学习生成的数据。以下,对此进行详细的描述。
图3中表示生成映射数据96b的系统。如图3所示,在本实施方式中,在内燃机10的曲轴32经由转矩转换器70和变速装置80以机械的方式连结测力计(dynamometer)140。并且,通过传感器组142检测使内燃机10进行了工作时的各种各样的状态变量,检测结果被输入到作为生成映射数据96b的计算机的生成装置150。此外,不仅是图1所示的车辆VC1搭载的传感器,传感器组142也包括对排出到排气通路36的排气中的氮浓度进行检测的氮浓度传感器、对排气中的未燃燃料浓度进行检测的未燃燃料浓度传感器、对排气中的颗粒状物质(PM)的量进行检测的PM传感器。另外,传感器组142包括对催化剂38的温度(催化剂温度Tcat)进行检测的催化剂温度传感器、对内燃机10周边的噪声进行检测的麦克风等。
生成装置150具备CPU152、ROM154、能电重写的非易失性存储器(存储装置156)、外围电路158,那些部件设为能够通过本地网络159进行通信。
图4中表示生成装置150执行的处理的步骤。对于图4所示的处理,通过CPU152执行存储于ROM154的学习程序154a来实现。
在图4所示的一系列处理中,CPU152首先对由存储于图3所示的存储装置156的关系规定数据156a规定的行动价值函数Q(s,a)进行初始化(S40)。在此,行动价值函数Q是将状态s和行动a作为自变量、并将期待收益作为输出变量的函数。在本实施方式中,将状态s设为与通过S10的处理取得的值有关的10个变量。另外,将行动a设为通过S12~S28的处理设定的9个操作量。即,在本实施方式中,状态s为10维矢量,行动a为9维矢量,但为了便于说明,使用了小写的“s”、“a”。另外,本实施方式涉及的行动价值函数Q(s,a)设为表形式的函数。但是,在本实施方式中,为了削减行动价值函数Q(s,a)的自变量的组合的数量,仅通过对状态s和行动a的各变量的值进行离散化而得到的各值的组的一部分来定义行动价值函数Q(s,a)。
详细而言,首先,通过具备与内燃机10同样的操作部,使已经通过相关方法进行了操作部的操作量的适配的内燃机进行工作,从而确定其各状态s下的行动a。并且,选择实际检测到的状态s的一部分来作为映射数据96b规定的输入变量的值,提取关于那些状态的各个状态的行动a。此外,在对于状态提取多个行动a的情况下,采样那些中实测到的频度大的行动a等即可。由此,设定代表点,该代表点是状态s和行动a的多个组。但是,在此的状态s、行动a的成分分别设为对属于将最小值以上且最大值以下的区域分割为了多个时的所分割得到的区域中的哪个区域进行定义。这是用于对通过相关方法已经进行了操作部的操作量的适配的内燃机与本实施方式涉及的内燃机10的排气量的不同进行补偿的设定。
在这样的状态下,CPU152将行动价值函数Q(s,a)的自变量可取的范围设为代表点和使行动a的各变量的值相对于代表点而在正方向和负方向上偏移一个单位而得到的值。例如,即使EGR开口度指令值Egrvor可取的值为“0~10”的10级,在预定的状态s0下的EGR开口度指令值Egrvor的实测值为“5”的情况下,行动价值函数Q(s0,a)的自变量中的EGR开口度指令值Egrvor也被设为仅可取“4、5、6”的值。即,对于状态s0、且EGR开口度指令值Egrvor为“1”不定义行动价值函数Q(s0,a)。
接着,CPU152取得最新的状态st(S42)。在此,加速器操作量ACCP是通过生成装置150生成的,不是实际的加速踏板的操作量。即,在图3中,为了模拟车辆的状态,将加速器操作量ACCP作为与车辆的状态有关的变量而以模拟的方式进行生成。另外,车速SPD是在车辆搭载有内燃机10和变速装置80的情况下基于转速NE和变速装置80的变速比所设想的值,由生成装置150算出。
接着,CPU152按照由关系规定数据156a规定的策略πt,选择行动at(S44)。在此,行动at意味着是对于状态st所选择的行动a。另外,策略πt在状态st下虽然使选择使行动价值函数Q(st,a)最大化的行动a(贪婪行动(greedy action))的概率为最大,但并不使除此之外的行动a的选择概率为“0”。在此,通过不采取贪婪行动,能够实现用于寻找最佳行动的搜索。这能够通过ε贪婪行动选择方法、Softmax行动选择方法来实现。
接着,CPU152基于行动at来对操作部进行操作(S46)。顺便说一下,行动at是如上所述那样指定上述最小值以上且最大值以下的区域被分割为多个而得到的多个区域中的某一个区域的行动,但在操作部的操作时,采用与行动at指定的区域的中央值对应的值。此外,在此也可以代替将行动at作为直接的操作量,而将前次的操作量和根据行动at确定的操作量的指数移动平均处理值作为本次的操作量。并且,CPU152取得最新的状态st+1(S48)。接着,CPU152算出行动at的奖励rt(S50)。
图5中表示S50的处理的详细。在图5所示的一系列处理中,CPU152首先基于传感器组142的检测值,取得包括内燃机10的状态的车辆的模拟的状态(S60)。详细而言,取得上游侧检测值Afu、下游侧检测值Afd、基于氮浓度传感器的检测值的排气中的NOx量Qnox、基于未燃燃料浓度传感器的检测值的排气中的未燃燃料量Qch、基于PM传感器的检测值的排气中的PM(particulate matter,颗粒物)量Qpm、由催化剂温度传感器检测的催化剂温度Tcat。另外,CPU152取得要求喷射量Qf(1)、Qf(2)、……、车辆的前后加速度Gx(1)、Gx(2)、……。在此,括号中的数字不同是表示为互不相同的采样定时。即,要求喷射量Qf(1)、Qf(2)、……是要求喷射量Qf的时间序列数据,前后加速度Gx(1)、Gx(2)、……是前后加速度Gx的时间序列数据。时间序列数据设为从图5的处理的前次的执行定时到本次的执行定时的期间中的采样值。在此,前后加速度Gx是通过CPU152基于测力计140的负荷转矩等算出的、设想为假如在车辆搭载有内燃机10等的情况下在车辆中所产生的前后加速度。另外,CPU152取得由麦克风检测到的声压SP、根据测力计140生成的负荷转矩和变速装置80的变速比掌握的内燃机10的转矩(内燃机转矩Trqeg)及其要求值(内燃机转矩要求值Trqeg*)。但是,也可以代替内燃机转矩Trqeg和内燃机转矩要求值Trqeg*,而取得作为内燃机转矩Trqeg和转速NE之积的内燃机输出Peg及其要求值(内燃机输出要求值Peg*)。在此,内燃机转矩要求值Trqeg*根据加速器操作量ACCP来设定。
接着,CPU152通过S62~S66的处理算出基于排气特性的观点的奖励。即,CPU152首先判定以下的条件(1)~条件(6)的逻辑积是否为真(S62)。该处理是判定排气特性是否为预定特性的处理。
条件(1):上游侧检测值Afu为浓侧上限值AfuR以上且稀侧上限值AfuL以下这一条件。在此,浓侧上限值AfuR被设为比理论空燃比靠浓侧的值,稀侧上限值AfuL被设为比理论空燃比靠稀侧的值。
条件(2):下游侧检测值Afd为浓侧上限值AfdR以上且稀侧上限值AfdL以下这一条件。在此,浓侧上限值AfdR被设为比理论空燃比靠浓侧的值,稀侧上限值AfdL被设为比理论空燃比靠稀侧的值。
条件(3):NOx量Qnox为预定量Qnoxth以下这一条件。
条件(4):未燃燃料量Qch为预定量Qchth以下这一条件。
条件(5):PM量Qpm为预定量Qpmth以下这一条件。
条件(6):催化剂温度Tcat为下限温度TcatL以上且上限温度TcatH以下这一条件。CPU152在判定为条件(1)~条件(6)的逻辑积为真的情况下(S62:是),认为排气特性处于作为目标的预定特性,对奖励rt加上“10”(S64)。与此相对,CPU152在判定为上述逻辑积为假的情况下,对奖励rt加上“-10”(S66)。这对应于给与负的奖励。换言之,对应于进行处罚。顺便说一下,每当周期性地开始图5所示的一系列处理时,奖励rt的初始值被设为零。
CPU152在S64、66的处理完成的情况下,通过S68、S70的处理来算出基于燃料消耗率的观点的奖励。即,CPU152判定通过S60的处理取得的要求喷射量Qf(1)、Qf(2)、……的累计值InQf是否为预定值InQfth以下(S68)。并且,CPU152在判定为是预定值InQfth以下的情况下(S68:是),对奖励rt加上正的预定量Δ(S70)。在此,设为累计值InQf小的情况下的预定量Δ的值比累计值InQf大的情况下的预定量Δ的值大。
CPU152在S70的处理完成的情况下、在S68的处理中作出否定判定的情况下,通过S72~S76的处理,算出基于驾驶性能的观点的奖励。即,CPU152首先判定以下的条件(7)~条件(9)的逻辑积是否为真(S72)。
条件(7):前后加速度Gx的每预定期间的变化量ΔGx为下限变化量ΔGxthL以上且上限变化量ΔGxthH以下这一条件。
条件(8):前后加速度Gx为下限加速度GxL以上且上限加速度GxH以下这一条件。
此外,下限加速度GxL、上限加速度GxH根据加速器操作量ACCP来以可变的方式进行设定。
条件(9):声压SP为预定值SPth以下这一条件。
CPU152在判定为条件(7)~条件(9)的逻辑积为真的情况下(S72:是),认为驾驶性能满足预定基准,对奖励rt加上“5”(S74)。与此相对,CPU152在判定为上述逻辑积为假的情况下(S72:否),对奖励加上“-5”(S76)。
CPU152在S74、S76的处理完成的情况下,判定内燃机转矩Trqeg与内燃机转矩要求值Trqeg*之差的绝对值是否为预定量ΔTrqeg以下(S78)。此外,在S60的处理中取得了内燃机输出Peg的情况下,在S78的处理中,代替内燃机转矩Trqeg与内燃机转矩要求值Trqeg*之差的绝对值,而判定内燃机输出Peg与内燃机输出要求值Peg*之差的绝对值是否为预定量ΔPeg以下。
并且,CPU152在S78的处理中作出肯定判定的情况下,对奖励rt加上“10”(S80),另一方面,在S78的处理中作出否定判定的情况下,对奖励rt加上“-10”(S82)。
此外,CPU152在S80、S82的处理完成的情况下,完成图4的S50的处理。接着,CPU152为了算出对行动价值函数Q(s,a)中的状态st、行动at的情况下的行动价值函数Q(st,at)的值进行更新的更新量,算出误差δt(S52)。在本实施方式中,例示异策略TD法(off-policyTD method)。即,使用下降率γ,使误差δt为从对行动价值函数Q(st+1,A)中的最大值乘以下降率γ而得到的值与奖励rt之和减去行动价值函数Q(st,at)后的值。此外,“A”意味着行动a的集合。接着,CPU152通过对行动价值函数Q(st,at)添加对误差δt乘以学习率α而得到的值,从而对行动价值函数Q(st,at)进行更新(S54)。即,使由关系规定数据156a规定的行动价值函数Q(s,a)中的自变量成为状态st和行动at的行动价值函数Q(s,a)的值变化“α·δt”。此外,对于S52、S54的处理,通过执行学习程序154a中的使用更新映射来对行动价值函数Q进行更新的执行指令来实现,更新映射是将奖励rt、状态st、行动at作为输入、并输出被更新了的行动价值函数Q的映射。通过该更新映射,由关系规定数据156a规定的通过S10的处理取得的值与按照S44的处理选择的操作量的关系被以使得期待收益增加的方式进行了更新。这是为了通过更新行动价值函数Q(st,at)来将行动价值函数Q(st,at)更新为更高精度地表现实际期待收益的值。
接着,CPU152针对各自变量判定行动价值函数Q的值是否已收敛(S56)。并且,CPU152在判定为未收敛的情况下(S56:否),对t进行更新以使得通过S48的处理取得的状态st+1成为状态st(S58),返回S44的处理。与此相对,CPU152在判定为已收敛的情况下(S56:是),暂时结束图4所示的一系列处理。
图6中表示生成装置150执行的处理中的、特别是基于通过图4的处理学习后的行动价值函数Q来映射数据96b的处理的步骤。对于图6所示的处理,通过CPU152执行存储于ROM154的学习程序154a来实现。
在图6所示的一系列处理中,CPU152首先选择一个状态s(S90)。接着,CPU152选择与状态s对应的行动价值函数Q(s,A)中的使行动价值函数Q的值为最大的行动a(S92)。即,在此,根据贪婪策略来选择行动a。接着,CPU152使状态s和行动a的组存储于存储装置156(S94)。
接着,CPU152判定是否通过S90的处理选择了映射数据96b的输入变量的全部值(S96)。并且,CPU152在判定为存在未被选择的值的情况下(S96:否),返回S90的处理。与此相对,CPU152在判定为全部被选择了的情况下(S96:是),基于通过S94的处理存储的数据,生成映射数据96b(S98)。在此,将与映射数据96b的状态s的输入变量的值对应的输出变量的值作为所对应的行动a。
此外,CPU152在S98的处理完成的情况下,暂时结束图6所示的一系列处理。图7中表示图1所示的控制装置90执行的处理中的与变速装置80的操作有关的处理的步骤。对于图7所示的处理,通过CPU92执行存储于ROM94的控制程序94b和学习程序94a来实现。此外,在图7中,不是表示变速装置80能够实现的全部变速比的切换,作为一个例子,表示从作为一对变速比的第1变速比切换为第2变速比的情况下的处理。在此,为了设为第1变速比,设为提高油压Poila来使第1离合器为接合状态,并且,降低油压Poilb来使第2离合器为分离状态。另外,为了设为第2变速比,设为降低油压Poila来使第1离合器为分离状态,并且,提高油压Poilb来使第2离合器为接合状态。
在图7所示的一系列处理中,CPU92首先判定是否存在从第1变速比向第2变速比的变速要求(S110)。并且,CPU92在判定为存在变速要求的情况下(S110:是),确定输入转速ωin(n)、输出转速ωout(n)以及油压Poila(n)、Poilb(n)(S112)。此外,“(n)”的变量n是对于进行S112的处理的定时的标签变量。该处理是取得状态的处理。即,在图7的处理中,状态由输入转速ωin、输出转速ωout以及油压Poila、Poilb的4维矢量表现。
接着,CPU92按照由存储于图1的存储装置96的关系规定数据96a规定的策略π,对作为行动的电磁阀80a的电流指令值(电磁线圈电流指令值ia*)和电磁阀80b的电流指令值(电磁线圈电流指令值ib*)进行选择(S114)。并且,CPU152为了将在电磁阀80a中流动的电流控制为电磁线圈电流指令值ia*、且将在电磁阀80b中流动的电流控制为电磁线圈电流指令值ib*,输出操作信号MS12、MS13(S116)。
并且,CPU92判定变速是否已完成(S118)。CPU92在判定为变速未完成的情况下(S118:否),将S112的处理的采样值更新为“n-1”(S119),返回S112的处理。由此,CPU152新取得输入转速ωin、输出转速ωout以及油压Poila、Poilb。
与此相对,CPU92在判定为变速已完成的情况下(S118:是),判定以下的条件(10)~条件(12)的逻辑积是否为真(S120)。
条件(10):作为从第1变速比向第2变速比的切换所需要的时间的变速时间Tsft为预定时间TsftH以下这一条件。在此,预定时间TsftH被设定为作为变速所需要的时间的容许上限值以下。
条件(11):输入转速ωin的每预定期间的变化量Δωin的绝对值为输入侧预定值ΔωinH以下这一条件。在此,输入侧预定值ΔωinH基于不会伴随着变速而给用户带来违和感的上限值来设定。
条件(12):输出转速ωout的每预定期间的变化量Δωout的绝对值为输出侧预定值ΔωoutH以下这一条件。在此,输出侧预定值ΔωoutH基于不会伴随着变速而给用户带来违和感的上限值来设定。
CPU92在判定为上述条件(10)~条件(12)的逻辑积为真的情况下(S120:是),对奖励r加上“1”(S122)。这意味着在条件(10)~条件(12)的逻辑积为真的情况下给与正的奖励。
CPU92在S122的处理完成的情况下、在S120的处理作出否定判定的情况下,判定是否存在油压Poila和油压Poilb这两方成为阈值Pth以上的采样值的组(Poila(i),Poilb(i))(S124)。在此,阈值Pth被设定为比离合器成为接合状态的下限值小的值。CPU92在判定为存在上述的组的情况下(S124:是),对奖励r加上作为负奖励的“-10”(S126)。即,在此作为对象的变速中,需要状态根据油压Poila而确定的第1离合器和状态根据油压Poilb而确定的第2离合器这两个离合器中的一方从接合状态转变为分离状态,另一方从分离状态转变为接合状态。因此,油压Poila和油压Poilb这两方同时变高是不好的。
CPU92在S126的处理完成的情况下、在S124的处理中作出否定判定的情况下,在S128~S136的处理中,对存储于图1所示的存储装置96的关系规定数据96a进行更新。在本实施方式中,使用ε软同策略型蒙特卡罗法(ε-soft on-policy Monte Carlo method)。
即,CPU92首先读出作为一次的变速处理的期间中的通过S112的处理取得的状态的输入转速ωin、输出转速ωout、油压Poila,Poilb的组的时间序列数据、和作为与各状态对应的行动的电磁线圈电流指令值ia*、ib*的组的时间序列数据(S128)。在此,将在S128的处理中读出的状态记载为状态集合Sj,将在S128的处理中读出的行动记载为行动集合Aj。
接着,CPU92对由通过上述S128的处理读出的各状态和所对应的行动的组确定的收益R(Sj,Aj)分别加上奖励r(S130)。在此,收益R的初始值设为所对应的行动价值函数Q的初始值即可。接着,关于由通过上述S128的处理读出的各状态和所对应的行动的组确定的收益R(Sj,Aj),分别进行平均化并代入到所对应的行动价值函数Q(Sj,Aj)(S132)。在此,平均化设为如下处理即可,该处理为:对通过S130的处理算出的收益R除以在进行了S130的处理的次数加上预定数而得到的数。
接着,CPU92关于通过上述S128的处理读出的状态,分别将所对应的行动价值函数Q(Sj,ia*,ib*)中的成为最大值时的电磁线圈电流指令值ia*,ib*代入到电磁线圈电流指令值ia0*、ib0*(S134)。此外,电磁线圈电流指令值ia0*、ib0*根据通过上述S128的处理读出的状态的种类而成为不同的值,但在此简化标记而用同一标号进行了记载。
接着,CPU92关于通过上述S128的处理读出的各个状态,对所对应的策略π(ia*,ib*|Sj)进行更新(S136)。即,当将行动的总数设为“|A|”时,将作为通过S134选择的行动的电磁线圈电流指令值ia0*、ib0*的选择概率设为“1-ε+ε/|A|”。另外,将电磁线圈电流指令值ia0*、ib0*以外的“|A|-1”个行动的选择概率分别设为“ε/|A|”。
此外,CPU92在S136的处理完成的情况下、通过S110的处理作出否定判定的情况下,暂时结束图7所示的一系列处理。在图7中,S110~S119的处理是通过执行控制程序94b实现的处理,S120~S136的处理是通过执行学习程序94a实现的处理。
顺便说一下,存储于存储装置96的关系规定数据96a设为在图3所示的系统中预先通过与图7同样的处理进行了某种程度的学习后的数据。在通过图3所示的系统进行的强化学习中,也可以相比于向存储装置96的存储后,将“ε”设定为大的值,或将阈值Pth设定大的值。此外,优选在将阈值Pth设定为大的值的情况下,在S118的处理之前执行S124的处理,在S124的处理中作出肯定判定的情况下,结束学习而给与大的负的奖励。
在此,对本实施方式的作用和效果进行说明。在图3所示的系统中,CPU152通过强化学习对行动价值函数Q进行学习。并且,设为:通过在行动价值函数Q的值收敛的情况下,在每次的状态下选择使行动价值函数Q最大化的行动,从而在该状态下学习了在满足燃料消耗率、排气特性以及驾驶性能的要求上适当的操作量。并且,CPU152关于成为映射数据96b的输入变量的状态分别选择使行动价值函数Q最大化的行动,将状态和行动的组存储于存储装置156。接着,CPU152基于存储于存储装置156的状态和行动的组,生成映射数据96b。由此,能够不会使熟练人员的工时过度增大地设定与状态相应的适当的操作量。
特别是,在本实施方式中,使用了10个互不相同的量来作为状态。因此,例如在熟练人员对与10个状态对应的各操作量的值进行适配的情况下,由于维数大,适配工序会成为非常麻烦的工序。与此相对,在本实施方式中,通过使用强化学习,即使是在维度大的情况下,也能够在抑制熟练人员的工时增加的同时设定操作量。
根据以上说明的本实施方式,能进一步实现以下所记载的作用效果。(1)在控制装置90具备的存储装置96中,不是存储与内燃机10的操作部的操作量有关的行动价值函数Q等,而是存储了映射数据96b。由此,CPU92基于使用了映射数据96b的映射运算,决定内燃机10的操作部的操作量,因此,与执行对行动价值函数Q中的成为最大值的行动价值函数Q进行选择的处理的情况相比,能够减轻运算负荷。
(2)通过强化学习对变速装置80的变速比的切换操作进行了学习。由此,不会使熟练人员的工时过度增大,就能够设定与变速装置80的状态相应的操作量。
(3)在控制装置90具备的存储装置96中存储与变速装置80的操作量有关的行动价值函数Q等来作为关系规定数据96a,每当执行变速比的切换操作时,对行动价值函数Q、策略π进行了更新。由此,与不通过控制装置90进行更新的情况相比,能够使学习频度增加。
第2实施方式
以下,以与第1实施方式的不同点为中心,参照附图对第2实施方式进行说明。
图8中表示本实施方式涉及的控制装置和驱动系统。此外,在图8中,为了便于说明,对与图1所示的构成要素对应的构成要素标记了同一标号。如图8所示,在本实施方式中,不具备映射数据96b。取而代之,本实施方式涉及的关系规定数据96a也包含对内燃机10的状态与内燃机10的操作部的操作量之间的关系进行规定的数据。该数据包含通过图4的处理生成的行动价值函数Q等。
另外,在存储装置96中存储有PM量输出映射数据96c和转矩输出映射数据96d。另外,在本实施方式中,控制装置90对由感知驱动系统的声音的麦克风134检测到的声压SP、由加速度传感器136检测的车辆VC1的前后加速度Gx进行参照。
图9中表示通过CPU92在利用PM量输出映射数据96c和转矩输出映射数据96d的同时执行学习程序94a来实现的处理。图9所示的PM量输出处理M10是如下处理:将转速NE、填充效率η、点火正时aig、喷射量增量值Qfi、进气温度Ta以及水温THW作为输入,并输出PM量Qpm。在此,喷射量增量值Qfi是实际的喷射量(要求喷射量Qf)相对于在燃烧室26内使被作为燃烧对象的混合气的空燃比为理论空燃比所需要的喷射量的过剩量。但是,喷射量增量值Qfi可取负的值,在该情况下,表示实际的喷射量相对于使混合气的空燃比为理论空燃比所需要的喷射量的不足量。上述PM量输出映射数据96c是与将转速NE、填充效率η、点火正时aig、喷射量增量值Qfi、进气温度Ta以及水温THW作为输入、并输出PM量Qpm的神经网络等的已学习模型有关的数据。因此,PM量输出处理M10是如下处理:将转速NE、填充效率η、点火正时aig、喷射量增量值Qfi、进气温度Ta以及水温THW作为向已学习模型的输入,算出PM量Qpm。此外,上述PM量输出映射数据96c例如设为在执行图5的处理时将通过S60的处理取得的PM量Qpm作为教师数据而被进行了学习的数据即可。
另一方面,转矩输出处理M12是如下处理:将转速NE、填充效率η、点火正时aig、要求喷射量Qf以及进气相位差DIN作为输入,算出内燃机转矩Trqeg的处理。上述转矩输出映射数据96d是与将转速NE、填充效率η、点火正时aig、要求喷射量Qf以及进气相位差DIN作为输入、并输出内燃机转矩Trqeg的神经网络等的已学习模型有关的数据。因此,转矩输出处理M12是如下处理:将转速NE、填充效率η、点火正时aig、要求喷射量Qf以及进气相位差DIN作为向已学习模型的输入,算出内燃机转矩Trqeg。此外,上述转矩输出映射数据96d例如设为在执行图5的处理时将通过S60的处理取得的内燃机转矩Trqeg作为教师数据而被进行了学习的数据即可。
图10中表示本实施方式中的通过控制装置90进行的与内燃机10的操作部的操作有关的处理的步骤。对于图10所示的处理,通过CPU92例如以产生内燃机10的启动要求为条件而执行存储于ROM94的控制程序94b和学习程序94a来实现。此外,在图10中,关于与图4所示的处理对应的处理,为了便于说明,标记了同一步骤编号。
在图10所示的一系列处理中,CPU92首先在执行了与图4所示的S42~S48的处理同样的处理之后,算出奖励rt(S50a)。图11中表示S50a的处理的详细。此外,在图11中,为了便于说明,对于与图5所示的处理对应的处理赋予同一步骤编号。
在图11所示的一系列处理中,CPU92首先取得奖励rt的算出所需要的变量的值(S60a)。详细而言,CPU92取得下游侧检测值Afd、PM量Qpm、要求喷射量Qf的时间序列数据、前后加速度Gx的时间序列数据、声压SP、内燃机转矩Trqeg(内燃机输出Peg)以及内燃机转矩要求值Trqeg*(内燃机输出要求值Peg*)。此外,可以对内燃机转矩Trqeg乘以转速NE来求出内燃机输出Peg。
接着,CPU92判定上述条件(2)和条件(5)的逻辑积是否为真(S62a)。并且,CPU92在判定为逻辑积为真的情况下(S62a:是),转移至S64的处理,另一方面,在判定为逻辑积为假的情况下(S62a:否),转移至S66的处理。此外,CPU92在完成S64、S66的处理的情况下,执行S68~S82的处理,完成图10的S50a的处理。
返回图10,CPU92在完成S50a的处理的情况下,执行S52~S54、S58的处理,返回S44的处理。顺便说一下,S42~S48的处理通过执行由控制程序94b规定的执行指令来实现,S50a、S52~S54、S58的处理通过执行由学习程序94a规定的执行指令来实现。
此外,图10的处理中的策略π也可以为贪婪行动的选择概率比图3的处理中的策略π的贪婪行动的选择概率高的策略。根据以上说明的本实施方式,在控制装置90中也对与内燃机10的操作部的操作量有关的行动价值函数Q进行更新,因此,相比于不更新的情况,能够提高学习频度。
第3实施方式
以下,以与第2实施方式的不同点为中心,参照附图对第3实施方式进行说明。
在本实施方式中,不使用行动价值函数,将策略π直接作为更新对象。详细而言,在本实施方式中,使策略π为对确定行动的各操作量可取的概率进行确定的多变量高斯分布。在此,多变量高斯分布的平均值μ(1)表示节气门开口度指令值Tor*的平均值,平均值μ(2)表示要求喷射量Qf的平均值,平均值μ(3)表示进气相位差指令值DIN*的平均值,平均值μ(4)表示点火正时aig的平均值,平均值μ(5)表示喷射分配率Kp的平均值。另外,平均值μ(6)表示WGV开口度指令值Wgvor的平均值,平均值μ(7)表示燃压指令值Pf*的平均值,平均值μ(8)表示EGR开口度指令值Egrvor的平均值,平均值μ(9)表示吹扫操作量Pg的平均值。另外,在本实施方式中设为:使多变量高斯分布的协方差矩阵为对角矩阵,与各平均值μ(i)对应的方差σ(i)可成为不同的值。
图12中表示本实施方式涉及的与内燃机10的操作部的操作有关的处理的步骤。对于图12所示的处理,通过CPU92例如以预定周期反复执行存储于ROM94的控制程序94b来实现。此外,在图12中,为了便于说明,对于与图4所示的处理对应的处理标记了同一步骤编号。
在图12所示的一系列处理中,CPU92首先与图4的处理同样地在S42中执行处理。此外,在图12中,将状态记载为“s”,与图4中的“st”不同,但这不过是标记上的问题。
接着,CPU92将通过S42的处理取得的状态s代入到用于设定策略π的函数近似器的输入变量x(1)~x(10)(S140)。详细而言,CPU92将转速NE代入到输入变量x(1),将填充效率η代入到输入变量x(2),将增压压力Pa代入到输入变量x(3),将进气温度Ta代入到输入变量x(4),将水温THW代入到输入变量x(5)。另外,CPU92将油温Toil代入到输入变量x(6),将下游侧检测值Afd代入到输入变量x(7),将上游侧检测值Afu代入到输入变量x(8),将加速器操作量ACCP代入到输入变量x(9),将车速SPD代入到输入变量x(10)。
接着,CPU92关于“i=1~9”分别算出平均值μ(i)和方差σ(i)(S142)。在本实施方式中,由中间层的层数为“p-1”个、各中间层的激活函数h1~hp-1为双曲正切、且输出层的激活函数hp为ReLU的神经网络构成平均值μ(i)。在此,ReLU是对输入和“0”中非小一方进行输出的函数。另外,当设为m=1、2、……、p-1时,第m中间层的各节点的值通过将由系数w(m)规定的线性映射的输出输入到激活函数hm来生成。在此,n1、n2、……、np-1分别是第1中间层、第2中间层、……、第p-1中间层的节点数。例如,对于第1中间层的各节点的值,通过将向由系数w(1)ji(j=0~n1,i=0~10)规定的线性映射输入了上述输入变量x(1)~x(10)时的输出输入到激活函数h1来生成。顺便说一下,wm(1)j0等是偏置参数,输入变量x(0)定义为“1”。
上述神经网络将对由系数w(p)iq(i=1~9,q=0~np-1)规定的线性映射输入了激活函数hp的输出时的输出作为平均值μ(i)。
另外,在本实施方式中,使方差σ(i)为对函数f分别输入了通过由系数wTik(i=1~9,k=1~10)规定的线性映射对输入变量x(1)~x(10)进行线形变换而得到的值时的函数f的值。在本实施方式中,例示ReLU来作为函数f。
接着,CPU92基于通过由S142的处理算出的平均值μ(i)和方差σ(i)定义的策略π,决定行动a*(S144)。在此,选择平均值μ(i)的概率最高,并且方差σ(i)小的情况下的选择平均值μ(i)的概率比方差σ(i)大的情况下的选择平均值μ(i)的概率大。
接着,CPU92基于在S144的处理中选择的行动a*,对内燃机10的操作部进行操作(S146),暂时结束图12所示的一系列处理。图13中表示控制装置90的策略π的更新处理的步骤。对于图13所示的处理,通过CPU92例如以预定周期反复执行存储于ROM94的学习程序94a来实现。
在图13所示的一系列处理中,CPU92首先通过S50a的处理算出奖励r。接着,CPU92对收益R加上奖励r(S152)。并且,CPU92判定变量t是否达到了预定时间T-1(S154)。CPU92在判定为未达到预定时间T-1的情况下(S154:否),使变量t递增(increment)(S156)。
与此相对,CPU92在判定为达到预定时间T-1的情况下(S154:是),在将收益R代入到收益Ri之后,对收益R进行初始化,进一步,对变量t进行初始化(S158)。接着,CPU92判定变量i是否达到了预定值N(S160)。并且,CPU92在判定为未达到预定值N的情况下(S160:否),使变量i递增(S162)。
与此相对,CPU92在判定为达到预定值N的情况下(S160:是),通过策略梯度法(policy gradient method),对规定策略π的变量w(1)~w(p)、系数wT进行更新(S164)。在图13中,将规定策略π的变量w(1)~w(p)、系数wT总括地记载为参数θ。
在此,将变量t为0~T-1的状态s、行动a以及奖励r的T个组设为轨迹(trajectory)ht,将概率pθ(ht)设为按照由参数θ规定的策略π而成为轨迹ht的概率pθ(ht)。在此,“pθ(ht)·Rt”的轨迹ht的积分值为收益R(ht)的期待值(期待收益J),对参数θ进行更新以使其最大化。这能够通过使参数θ的各成分的更新量为与通过该成分对上述期待收益J进行偏微分而得到的值成比例的量来实现。
在此,当使用状态s0、s1、……、sT、行动a0、a1、……、aT时,概率pθ(ht)成为pθ(ht)=p(s0)·p(s1|s0,a0)·π(a0|s0)·p(s2|s1,a1)·π(a1|s1)……p(sT|sT-1,aT-1)·π(aT-1|sT-1)。但是,初始概率p(s0)是成为状态s0的概率,转变概率p(st+1|st,at)是在状态st、行动at时从状态st转变为状态st+1的概率。
因此,期待收益J的偏微分成为下述的式(c1)。
Figure BDA0002723291730000261
在此,由于无法知道概率pθ(ht),因此,将上述的式(c1)中的积分置换为多个(在此为预定值N个)轨迹ht的平均值。
由此,期待收益J的参数θ的各成分的偏微分系数成为对预定值N个的收益Ri加上“t=0~T-1”的策略π(at|ht(i)的对数的参数θ的相应成分的偏微分系数之和与收益Ri的积、并除以预定值N而得到的值。
CPU92将对参数θ的各成分下的期待收益J的偏微分系数乘以学习率α而得到的值作为参数θ中的相应成分的更新量。此外,对于S152~S164的处理,通过执行存储于ROM94的学习程序94a中的将状态s0、s1、……、行动a0、a1、……、以及奖励r作为输入、并输出被更新了的参数θ的更新映射的执行指令来实现。
CPU92在S164的处理完成的情况下,对变量i和收益R1~RN进行初始化(S166)。此外,CPU92在S156、S162、S166的处理完成的情况下,暂时结束图13所示的一系列处理。
顺便说一下,在第一次执行强化学习时,平均值μ(i)的初始值例如如以下那样进行设定即可。即,将使具备与内燃机10相同的排气量和相同的操作部、且控制方式已经被决定了的内燃机进行了工作时的状态s和行动a作为训练数据,对与平均值μ(i)有关的参数θ进行学习以使得降低平均值μ(i)与训练数据之差的绝对值即可。另外,关于方差σ(i),例如设定为足以进行通过相对于平均值μ(i)偏移了正负10%左右的值实现的搜索即可。
这样,在本实施方式中,通过使用函数近似器,即使是状态、行动为连续变量,也能够容易地对其进行处理。
第4实施方式
以下,以与第3实施方式的不同点为中心,参照附图来对第4实施方式进行说明。在上述第3实施方式中,作为车辆VC1,例示了仅将内燃机10作为车辆VC1的推力生成装置的车辆,但在本实施方式中,例示在内燃机10之外还具备电动发电机来作为推力生成装置的混联式混合动力车(series-parallel hybrid vehicle)。
图14中表示本实施方式涉及的控制装置和驱动系统。此外,在图14中,为了便于说明,对与图8所示的部件对应的部件标记了同一标号。如图所示,曲轴32以机械的方式连结于作为动力分割机构的行星齿轮机构160的行星架(图中记载为“C”)。在行星齿轮机构160的太阳轮(图中记载为“S”)以机械的方式连结有第1电动发电机162的旋转轴,在行星齿轮机构160的齿圈(图中记载为“R”)以机械的方式连结有第2电动发电机166的旋转轴。电池170的直流电压通过变换器164变换为交流电压后被施加于第1电动发电机162的端子。电池170的直流电压通过变换器168变换为交流电压后被施加于第2电动发电机166的端子。
控制装置90将第1电动发电机162、第2电动发电机166作为控制对象,为了对其控制量(转矩等)进行控制,对变换器164、168进行操作。控制装置90在控制量的控制时,对由电流传感器180检测的电池170的充放电电流I、由电压传感器182检测的电池170的端子电压Vb、由温度传感器184检测的电池温度Tbatt进行参照。另外,控制装置90对由第1速度传感器186检测的第1电动发电机162的旋转轴的转速(第1MG速度ωmg1)、由第2速度传感器188检测的第2电动发电机166的旋转轴的转速(第2MG速度ωmg2)进行参照。
图15中表示通过控制装置90进行的与内燃机10的操作部、变换器164、168的操作有关的处理的步骤。对于图15所示的处理,通过CPU92例如以预定周期反复执行存储于ROM94的控制程序94b来实现。此外,在图15中,为了便于说明,对于与图12所示的处理对应的处理标记了同一步骤编号。
在图15所示的一系列处理中,CPU92首先取得状态s(S42a)。在此,在S42的处理中取得的变量的值之外,还取得电池170的充电率SOC、电池温度Tbatt、第1MG速度ωmg1、第2MG速度ωmg2。此外,对于充电率SOC,通过CPU92根据充放电电流I小时的端子电压Vb,基于开放端电压与充电率SOC之间的关系来算出,另外,根据每次的充放电电流I来更新。
接着,CPU92将通过S42a取得的值代入到用于确定平均值μ(i)和方差σ(i)的函数近似器的输入变量x(S140a)。在此,关于输入变量x(1)~x(10),与在S140的处理中代入的变量是同样的。与此相对,CPU92将充电率SOC代入到输入变量x(11),将电池温度Tbatt代入到输入变量x(12),将第1MG速度ωmg1代入到输入变量x(13),将第2MG速度ωmg2代入到输入变量x(14)。
并且,CPU92通过对函数近似器代入输入变量x(1)~x(14),算出平均值μ(1)~μ(11)和方差σ(1)~σ(11)(S142a)。在此,平均值μ(10)是作为第1电动发电机162的转矩的第1MG转矩Tmg1的平均值,平均值μ(11)是作为第2电动发电机166的转矩的第2MG转矩Tmg2的平均值。对于本实施方式涉及的函数近似器,除了输入变量x的维数与在S142的处理中所使用的函数近似器不同之外,与在S142的处理中所使用的函数近似器是同样。
接着,CPU92基于策略π,决定包括内燃机10的操作部的9个操作量、第1MG转矩Tmg1、第2MG转矩Tmg2的行动a*(S144a)。并且,CPU92基于行动a*,对内燃机10的操作部、变换器164、168进行操作(S146)。在此,CPU92对变换器164进行操作以使得第1电动发电机162的转矩成为第1MG转矩Tmg1,对变换器168进行操作以使得第2电动发电机166的转矩成为第2MG转矩Tmg2。此外,CPU92在S146的处理完成的情况下,暂时结束图15所示的一系列处理。
CPU92通过与图13的处理同样的处理来对参数θ进行更新。但是,CPU92作为奖励r的算出处理,代替S50a的处理而执行图16所示的处理。
图16中表示本实施方式涉及的奖励r的算出处理的详细。此外,在图16中,为了便于说明,对于与图11所示的处理对应的处理标记了同一步骤编号。
在图16所示的一系列处理中,CPU92首先取得在奖励r的算出中使用的变量的值(S60b)。在此,在通过S60a的处理取得的变量的值中的内燃机转矩要求值Trqeg*(内燃机输出要求值Peg*)以外,CPU92还取得车辆VC1的输出要求值Ptot*(驱动转矩要求值Trq*)、输出Ptot(驱动转矩Trq)、充电率SOC、电池温度Tbatt。在此,输出Ptot是内燃机10的输出、第1电动发电机162的输出以及第2电动发电机166的输出之和。但是,根据行星齿轮机构160的性质,在那些三个输出都不为零的情况下,那些三个输出会包括具有互不相同的符号的输出。另外,例如对于第1电动发电机162的输出,能够通过对第1MG转矩Tmg1乘以第1MG速度ωmg1来算出。另一方面,对于驱动转矩Trq,能够通过将内燃机转矩Trqeg、第1MG转矩Tmg1、第2MG转矩Tmg2分别换算为驱动轮88的转矩来算出。
并且,CPU92执行S62a、S64~S76的处理,然后判定车辆VC1的输出Ptot与输出要求值Ptot*之差的绝对值是否为预定量ΔPtot以下(S78a)。此外,在S60b的处理中,在取得驱动转矩Trq和驱动转矩要求值Trq*的情况下,作为S78a的处理,判定驱动转矩Trq与驱动转矩要求值Trq*之差的绝对值是否为预定量ΔTrq以下即可。
CPU92在S78a的处理中作出肯定判定的情况下,转移至S80的处理,另一方面,在S78a的处理中作出否定判定的情况下,转移至S82的处理。CPU92在S80、S82的处理完成的情况下,判定充电率SOC是否为下限值SOCL以上且上限值SOCH以下(S170)。并且,CPU92在充电率SOC小于下限值SOCL、或者超过上限值SOCH的情况下(S172:否),为了给与负的奖励而从奖励r减去预定量Δ(S172)。在此,CPU92使充电率SOC低于下限值SOCL的量大的情况下的预定量Δ的值比充电率SOC低于下限值SOCL的量小的情况下的预定量Δ的值大。另外,CPU92使充电率SOC高于上限值SOCH的量大的情况下的预定量Δ的值比充电率SOC高于上限值SOCH的量小的情况下的预定量Δ的值大。
CPU92在S170的处理中作出肯定判定的情况下、完成S172的处理的情况下,判定电池温度Tbatt是否为上限温度TbattH以下(S174)。并且,CPU92在判定为超过上限值TbattH的情况下(S174:否),对奖励r加上“-10”(S176)。
此外,CPU92在S174的处理中作出肯定判定的情况下、S176的处理完成的情况下,暂时结束图16所示的一系列处理。
第5实施方式
以下,以与第4实施方式的不同点为中心,参照附图来对第5实施方式进行说明。在本实施方式中,在车辆VC1之外执行参数θ的更新。图17中表示在本实施方式中执行强化学习的控制系统的结构。此外,在图17中,为了便于说明,对与图14所示的部件对应的部件标记同一标号。
图17所示的车辆VC1内的控制装置90中的ROM94存储控制程序94b,但未存储学习程序94a。另外,存储装置96存储关系规定数据96a,但未存储PM量输出映射数据96c、转矩输出映射数据96d。另外,控制装置90具备通信机97。通信机97是用于经由车辆VC1外部的网络190与数据解析中心200进行通信的设备。
数据解析中心200对从多个车辆VC1、VC2、……发送的数据进行解析。数据解析中心200具备CPU202、ROM204、存储装置206、外围电路208以及通信机207,那些部件设为能够通过本地网络209进行通信。在ROM204中存储有学习程序94a,在存储装置206中存储有PM量输出映射数据96c、转矩输出映射数据96d。
图18中表示本实施方式涉及的强化学习的处理步骤。对于图18的左侧的流程图所示的处理,通过CPU92执行存储于图17所示的ROM94的控制程序94b来实现。另外,对于图18的右侧的流程图所示的处理,通过CPU202执行存储于ROM204的学习程序94a来实现。此外,在图18中,为了便于说明,对于与图13和图15所示的处理对应的处理标记了同一步骤编号。以下,沿着强化学习的时间序列,对图18所示的处理进行说明。
在图18的左侧的流程图所示的一系列处理中,CPU92首先取得状态(S42b)。在此,在本实施方式中,取得与通过S42a的处理取得的变量的值同样的变量的值,但关于转速NE和填充效率η,取得时间序列数据。即,取得包括“NE(1)、NE(2)、……、NE(6)”这6个采样值的时间序列数据来作为转速NE的时间序列数据,取得包括“η(1)、η(2)、……、η(6)”这6个采样值的时间序列数据来作为填充效率η的时间序列数据。
接着,CPU92将通过S42b的处理取得的变量的值代入到函数近似器的输入变量x(S140b)。即,作为“m=1~6”,CPU92将转速NE(m)代入到输入变量x(m),将填充效率η(m)代入到输入变量x(6+m)。另外,CPU92将增压压力Pa代入到输入变量x(13),将进气温度Ta代入到输入变量x(14),将水温THW代入到输入变量x(15)。另外,CPU92将油温Toil代入到输入变量x(16),将下游侧检测值Afd代入到输入变量x(17),将上游侧检测值Afu代入到输入变量x(18),将加速器操作量ACCP代入到输入变量x(19),将车速SPD代入到输入变量x(20)。另外,CPU92将充电率SOC代入到输入变量x(21),将电池温度Tbatt代入到输入变量x(22),将第1MG速度ωmg1代入到输入变量x(23),将第2MG速度ωmg2代入到输入变量x(24)。
并且,CPU92通过将由S140b的处理取得的输入变量x(1)~x(24)代入到对平均值μ(1)~μ(11)和方差σ(1)~σ(11)进行表现的函数近似器,算出平均值μ(1)~μ(11)和方差σ(1)~σ(11)(S142b)。对于本实施方式涉及的函数近似器,除了输入变量x的维数与在S142a的处理中使用的函数近似器不同之外,与在S142的处理中使用的函数近似器是同样的。
接着,CPU92基于策略π来决定行动a*(S144b),执行S146的处理,对通信机97进行操作,向数据解析中心200发送状态s、行动a*、以及奖励r的算出所需要的数据(S180a)。在此,奖励r的算出所需要的数据包括作为用于算出PM量Qpm的变量的值的点火正时aig的时间序列数据、要求喷射量Qf的时间序列数据、作为用于算出内燃机转矩Trqeg的变量的值的进气相位差DIN。另外,奖励r的算出所需要的数据包括前后加速度Gx的时间序列数据、声压SP。此外,关于图9所示的处理的输入变量中的其他变量,使用状态s的值。
与此相对,如图18的右侧的流程图所示,CPU202对被发送来的数据进行接收(S190)。并且,CPU202基于所接收到的数据,通过图16的处理来算出奖励(S50b),执行S152~S166的处理。接着,CPU202判定执行后述的S194的处理后的通过S164的处理进行的更新次数或者第一次进行图18的右侧的流程图的处理后的通过S164的处理进行的更新次数是否为预定次数以上(S192)。并且,CPU202在判定为是预定次数以上的情况下(S192:是),对通信机207进行操作,发送更新后的参数θ(S194)。此外,CPU202在S156、162、S194的处理完成的情况下、在S192的处理中作出否定判定的情况下,暂时结束图18的右侧的流程图的处理。顺便说一下,在对车辆VC1、VC2、……等进行出厂时,将车辆VC1、VC2、……内的存储装置96所存储的参数θ存储到存储装置206。
与此相对,如图18的左侧的流程图所示,CPU92判定是否存在参数θ的更新数据(S182),在判定为存在的情况下(S182:是),接收与参数θ有关的更新数据(S184)。并且,CPU92通过所接收到的参数θ,对关系规定数据96a进行更新(S186)。此外,CPU92在S186的处理完成的情况下、在S182的处理中作出否定判定的情况下,暂时结束图18的左侧的流程图所示的一系列处理。
这样,根据本实施方式,通过在数据解析中心200进行参数θ的更新,能够减轻控制装置90的运算负荷。根据以上说明的本实施方式,能进一步得到以下记载的作用效果。
(4)在数据解析中心200中,基于来自多个车辆VC1、VC2、……的数据,对参数θ进行了更新。由此,能够提高参数θ的更新频度。
(5)策略π的输入变量x中包括了作为工作点变量的转速NE和填充效率η的时间序列数据,所述工作点变量是对内燃机10的工作点进行规定的变量。在相关技术中,鉴于在对内燃机10的状态与内燃机10的操作部的操作量之间的关系进行适配时,内燃机10的状态的维数越多,则熟练人员的工时越呈指数函数性地增加,内燃机10的状态按各种状态量而使用了单一的采样值。但是,这不过是鉴于适配工时的,并非在使燃料消耗率、排气特性、驾驶性能最佳化上适当的设定。与此相对,在本实施方式中,通过使用时间序列数据,关于操作部的操作量的设定,能够获得通过基于相关技术的适配得不到的解。
第6实施方式
以下,以与第5实施方式的不同点为中心,参照附图来对第6实施方式进行说明。
在本实施方式中,在车辆VC1的外部执行参数θ的更新的基础上,在车辆VC1的外部求出行动a*。图19中表示在本实施方式中执行强化学习的控制系统的结构。此外,在图19中,为了便于说明,对于与图17所示的部件对应的部件标记了同一标号。
如图19所示,在车辆VC1中,在ROM94中存储有控制子程序94c。另外,在存储装置96未存储关系规定数据96a。另一方面,在数据解析中心200的ROM204中,在学习程序94a之外还存储有控制主程序204a。另外,在存储装置206中存储有关系规定数据96a。
图20中表示本实施方式涉及的强化学习的处理步骤。对于图20的左侧的流程图所示的处理,通过CPU92执行存储于图19所示的ROM94的控制子程序94c来实现。另外,对于图20的右侧的流程图所示的处理,通过CPU202执行存储于ROM204的控制主程序204a和学习程序94a来实现。此外,在图20中,为了便于说明,对于与图18所示的处理对应的处理标记了同一步骤编号。以下,沿着强化学习的时间序列,对图20所示的处理进行说明。
在图20的左侧的流程图所示的一系列处理中,CPU92当完成S42b的处理时,对通信机97进行操作,发送通过S42b的处理取得的状态s(S200)。
与此相对,如图20的右侧的流程图所示,CPU202接收状态s(S210)。并且,CPU202执行S140b、S142b、S144b的处理,对通信机207进行操作,向通过S210的处理接收到的数据的发送源发送通过S144b的处理决定的行动a*(S212)。
与此相对,如图20的左侧的流程图所示,CPU92接收行动a*(S202)。并且,CPU92基于所接收到的行动a*,执行S146的处理。并且,CPU92对通信机97进行操作,发送奖励r的算出所需要的数据(S180b)。此外,CPU92在完成S180b的处理的情况下,暂时结束图20的左侧的流程图所示的一系列处理。
与此相对,如图20的右侧的流程图所示,CPU202接收被发送来的数据(S214),执行S50b、S152~S166的处理,暂时结束图20的右侧的流程图所示的一系列处理。
这样,根据本实施方式,通过在数据解析中心200执行决定行动a*的处理,能够减轻车辆VC1侧的运算负荷。
本发明的第一方式涉及车辆用控制数据的生成方法。所述车辆用控制数据的生成方法包括:存储装置存储关系规定数据,所述关系规定数据是对具备内燃机的车辆的状态与所述内燃机的操作部的操作量之间的关系进行规定的数据,所述车辆的状态包括了所述内燃机的状态;执行装置对所述操作部进行操作;所述执行装置取得对所述车辆的状态进行检测的传感器的检测值;所述执行装置基于所述检测值,算出基于燃料消耗率、排气特性以及驾驶性能中的至少一个观点的奖励;以及所述执行装置使用预先确定的更新映射来更新所述关系规定数据,所述更新映射将基于所述检测值的所述车辆的状态、所述操作部的操作中所使用了的操作量以及与该操作对应的所述奖励作为自变量,返回以使关于按照所述关系规定数据来操作所述操作部的情况下所算出的所述奖励的期待收益增加的方式进行了更新的所述关系规定数据。对于执行装置和存储装置,在图1、图8以及图14的情况下,分别举出CPU92以及ROM94和存储装置96来作为其一个例子。另外,对于执行装置和存储装置,在图3的情况下,分别举出CPU152以及ROM154和存储装置156来作为其一个例子。另外,对于执行装置和存储装置,在图17和图19的情况下,分别举出CPU92、202以及ROM94、204和存储装置96、206来作为其一个例子。对于更新映射,举出在通过图1的学习程序94a、图3的学习程序154a规定的S52、S54的处理中所使用的映射、或者在S132~S136的处理中所使用的映射来作为其一个例子。另外,对于更新映射,举出在通过图8、图14的学习程序94a规定的S52、S54的处理中所使用的映射、在S132~S136的处理中所使用的映射、在S164的处理中所使用的映射来作为其一个例子。另外,对于更新映射,举出在通过图17、图19的学习程序94a规定的S164的处理中所使用的映射来作为其一个例子。对于操作处理,举出在S46的处理、S116的处理、S146的处理来作为其一个例子。对于取得,举出S42、S60的处理、S112的处理、S42、S60a的处理、S42a、S60b的处理、S42b、S60b的处理来作为其一个例子。对于奖励算出,举出S50的处理、S120~S126的处理、S50a的处理、图16的处理来作为其一个例子。对于更新,举出S52、S54的处理、S128~S136的处理、S164的处理来作为其一个例子。
在上述第一方式中,所述排气特性为预定特性的情况下的所述奖励也可以比所述排气特性不是预定特性的情况下的所述奖励大。所述预定特性也可以包括氮氧化物的排出量处于预定范围内、未燃燃料的排出量处于预定范围内、粒子状物质的排出量处于预定范围内以及设置于所述内燃机的排气通路的催化剂的温度处于预定范围内中的至少一个。对于上述构成,举出S62~S66的处理、S62a、S64、S66的处理来作为其一个例子。
在上述第一方式中,所述执行装置也可以以使得满足所述车辆的加速度处于第一预定范围内的情况下的根据所述驾驶性能的观点而定量化了的奖励比所述车辆的加速度为所述第一预定范围外的情况下的所述奖励大、所述车辆的加加速度处于第二预定范围内的情况下的根据所述驾驶性能的观点而定量化了的奖励比所述加加速度为所述第二预定范围外的情况下的所述奖励大、以及所述内燃机产生的声音的大小处于第三预定范围内的情况下的根据所述驾驶性能的观点而定量化了的奖励比所述声音的大小为所述第三预定范围外的情况下的所述奖励大中的至少一个的方式算出所述奖励。对于上述构成,举出S72~S76的处理来作为其一个例子。
上述第一方式的车辆用控制数据的生成方法也可以还包括:所述执行装置通过基于被更新了的所述关系规定数据将所述车辆的状态与使所述期待收益最大化的所述操作量一对一地关联,从而生成将所述车辆的状态作为自变量、并返回使所述期待收益最大化的所述操作量的控制用映射数据。对于上述构成,举出图6的处理来作为其一个例子,特别是,对于执行装置和存储装置,分别举出CPU152以及ROM154和存储装置156来作为其一个例子。此外,对于控制用映射数据,举出映射数据96b来作为其一个例子。
本发明的第二方式涉及车辆用控制装置。所述车辆用控制装置具备上述第一方式涉及的所述存储装置和所述执行装置。在所述车辆用控制装置中,所述执行装置构成为基于根据所述关系规定数据和所述车辆的状态确定的所述操作量来对所述操作部进行操作。对于执行装置和存储装置,分别举出CPU92以及ROM94和存储装置96来作为其一个例子。
在上述第二方式中,所述执行装置也可以构成为:取得所述内燃机的输出和转矩这两个中的至少一个的要求值和算出值来作为所述检测值,以使得所述要求值和所述算出值之差的绝对值为预定值以下的情况下的所述奖励比所述绝对值大于所述预定值的情况下的所述奖励大的方式算出所述奖励。对于取得,举出S60a的处理来作为其一个例子,对于奖励算出,举出S78~S82的处理来作为其一个例子。
在上述第二方式中,所述车辆也可以具备变速装置,所述变速装置构成为对所述内燃机的曲轴的转速进行变速来输出,并且构成为能够改变变速比。由所述关系规定数据规定的关系也可以包括所述变速装置的状态与所述变速装置的操作量之间的关系。所述执行装置也可以构成为:取得构成为对所述变速装置的状态进行检测的传感器所检测到的值来作为所述检测值,以使得满足所述变速装置的变速比的切换所需要的时间为预定时间以内的情况下的所述奖励比所述时间超过所述预定时间的情况下的所述奖励大、所述变速装置的输入轴的转速的变化速度的绝对值为输入侧预定值以下的情况下的所述奖励比所述输入轴的转速的变化速度的绝对值超过所述输入侧预定值的情况下的所述奖励大、所述变速装置的输出轴的转速的变化速度的绝对值为输出侧预定值以下的情况下的所述奖励比所述输出轴的转速的速度变化的绝对值超过所述输出侧预定值的情况下的所述奖励大、以及通过所述变速装置的电磁阀(80a)调整的油压满足预定条件的情况下的所述奖励比所述油压不满足所述预定条件的情况下的所述奖励大中的至少一个的方式算出所述奖励,使用将与所述变速装置的状态有关的所述检测值作为自变量的所述更新映射,对由所述关系规定数据规定的所述变速装置的状态与所述变速装置的操作量之间的关系进行更新。对于关系规定数据,举出图1和图8的关系规定数据96a来作为其一个例子。对于变速装置的状态,举出输入转速ωin、输出转速ωout、油压Poila、油压Poilb来作为其一个例子。对于操作量,举出电磁线圈电流指令值ia*、ib*来作为其一个例子。
在上述第二方式中,所述车辆也可以具备构成为对驱动轮提供动力的旋转电机。由所述关系规定数据规定的关系包括向所述旋转电机供给电力的蓄电装置的状态与所述旋转电机的控制量之间的关系。所述执行装置构成为:对所述旋转电机的驱动电路进行操作,取得所述蓄电装置的状态来作为所述检测值,以使得所述蓄电装置的状态处于预定范围内的情况下的所述奖励比所述蓄电装置的状态成为预定范围外的情况下的所述奖励大的方式算出所述奖励,通过将所述蓄电装置的状态和所述旋转电机的控制量作为所述更新映射的自变量,从而对由所述关系规定数据规定的所述蓄电装置的状态与所述旋转电机的控制量之间的关系进行更新。对于蓄电装置,举出电池170来作为其一个例子,对于蓄电装置的状态,举出电池温度Tbatt和充电率SOC来作为其一个例子。
在上述第二方式中,所述执行装置也可以构成为:取得所述车辆的输出和驱动转矩这两个中的至少一个的要求值和算出值来作为检测值,以使得关于所述车辆的输出和所述驱动转矩这两个中的所述至少一个的所述要求值和所述算出值之差的绝对值为预定值以下的情况下的所述奖励比所述绝对值大于所述预定值的情况下的所述奖励大的方式算出所述奖励。对于取得,举出S60b的处理来作为其一个例子。对于奖励算出,举出S78a、S80、S82的处理来作为其一个例子。
在上述第二方式中,所述关系规定数据也可以包括对所述车辆的状态、所述期待收益以及所述操作量的关系进行规定的数据。所述执行装置也可以进一步构成为基于所述检测值和所述关系规定数据,相比于减小所述期待收益的操作量,优先选择增大所述期待收益的操作量。所述执行装置也可以构成为基于所选择的所述操作量来对所述操作部进行操作。对于选择,举出S44的处理来作为其一个例子。
在上述第二方式中,所述关系规定数据也可以是对函数近似器进行规定的数据,所述函数近似器将所述车辆的状态作为自变量、并返回所述操作量的选择概率。所述更新映射也可以包括返回对所述函数近似器进行规定的参数的更新量的映射。对于函数近似器,举出对平均值μ(i)、方差σ(i)进行输出的函数近似器来作为其一个例子。
本发明的第三方式涉及车辆用控制系统。所述车辆用控制系统具备上述第二方式涉及的所述执行装置和所述存储装置。所述执行装置包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置,所述第1执行装置至少执行所述取得和所述操作,所述第2执行装置至少执行所述更新。对于第1执行装置,举出CPU92和ROM94来作为其一个例子,对于第2执行装置,举出CPU202和ROM204来作为其一个例子。
在上述第三方式中,所述第1执行装置也可以构成为进一步执行:向所述第2执行装置发送与所述检测值有关的数据,接收由所述第2执行装置发送的所述操作量,基于从所述第2执行装置接收到的所述操作量来对所述操作部进行操作。所述第2执行装置也可以构成为进一步执行:接收由所述第1执行装置发送的数据,基于从所述第1执行装置接收到的所述数据和所述关系规定数据来算出所述操作量,发送所算出的所述操作量。对于通过所述第1执行装置实现的发送,举出S200的处理来作为其一个例子,对于通过所述第1执行装置实现的接收,举出S202的处理来作为其一个例子。对于通过所述第2执行装置实现的接收,举出S210的处理来作为其一个例子,对于操作量算出,举出图20的右侧的流程图的S140b、142b、S144b的处理来作为其一个例子,对于通过所述第2执行装置实现的发送,举出S212的处理来作为其一个例子。
本发明的第四方式涉及车辆用控制装置。所述车辆用控制装置具备上述第三方式涉及的第1执行装置。对于车辆用控制装置,举出图17和图19的控制装置90来作为其一个例子。
本发明的第五方式涉及车辆用学习装置。所述车辆用学习装置具备上述第三方式涉及的第2执行装置。对于车辆用学习装置,举出数据解析中心200来作为其一个例子。
本发明的其他方式是车辆用控制数据的生成方法,使执行装置执行:操作处理,在使关系规定数据存储于存储装置的状态下,对所述变速装置进行操作,所述关系规定数据是对变速装置的状态与所述变速装置的操作量之间的关系进行规定的的数据,所述变速装置是对搭载于车辆的内燃机的曲轴的转速进行变速来输出的装置,并且使变速比为可变;取得处理,取得对所述变速装置的状态进行检测的传感器的检测值;奖励算出处理,基于通过所述取得处理取得的所述检测值,算出基于伴随着所述变速装置的操作的所述车辆的驾驶性能的奖励;以及更新处理,将基于通过所述取得处理取得的所述检测值的所述变速装置的状态、在所述变速装置的操作中所使用了的所述操作量以及与该操作对应的所述奖励作为向预先确定的更新映射的输入,对所述关系规定数据进行更新,所述更新映射输出以使关于按照所述关系规定数据来操作所述变速装置的情况下的所述奖励的期待收益增加的方式进行了更新的所述关系规定数据。对于执行装置和存储装置,分别举出图1和图8中的CPU92以及ROM94和存储装置96来作为其一个例子。对于操作处理,举出S116的处理来作为其一个例子。对于取得处理,举出S112的处理来作为其一个例子,对于奖励算出处理,举出S120~S126的处理来作为其一个例子。对于更新处理,举出S128~S136的处理来作为其一个例子。
在上述构成中,通过算出伴随着操作部的操作的奖励,能够掌握通过该操作能得到什么样的奖励。并且,通过基于奖励,根据经过了强化学习的更新映射来对关系规定数据进行更新,能够对变速装置的状态与变速装置的操作量之间的关系进行设定。因此,能够在设定变速装置的状态与变速装置的操作量之间的关系时,减少对熟练人员要求的工时。
本发明的另一其他方式是车辆用控制数据的生成方法,应用于具备内燃机和旋转电机来作为推力生成装置的车辆,使执行装置执行:操作处理,在使关系规定数据存储于存储装置的状态下,对所述内燃机的操作部和所述旋转电机的驱动电路进行操作,所述关系规定数据是对所述车辆的状态、所述内燃机的操作量以及所述旋转电机的控制量的关系进行规定的数据;取得处理,取得所述车辆的输出和所述车辆的驱动转矩这两个中的至少一个的要求值和算出值;奖励算出处理,基于通过所述取得处理取得的所述要求值和所述算出值,在所述算出值与所述要求值的差的绝对值小的情况下给与比该绝对值大的情况下大的奖励;以及更新处理,将所述车辆的状态、与所述操作处理的操作对应的所述操作部的操作量和所述旋转电机的控制量以及与该操作对应的所述奖励作为向预先确定的更新映射的输入,对所述关系规定数据进行更新,所述更新映射输出以使关于按照所述关系规定数据来操作所述操作部和所述驱动电路的情况下的所述奖励的期待收益增加的方式进行了更新的所述关系规定数据。对于执行装置和存储装置,在图14的情况下,分别举出CPU92以及ROM94和存储装置96来作为其一个例子。另外,对于执行装置和存储装置,在图17和图19的情况下,分别举出CPU92、202以及ROM94、204和存储装置96、206来作为其一个例子。对于操作处理,举出S146的处理来作为其一个例子。对于取得处理,举出S42a的处理、S42b的处理来作为其一个例子。对于奖励算出处理,举出图16的处理来作为其一个例子。
在上述构成中,通过算出伴随着操作部的操作的奖励,能够掌握通过该操作能得到什么样的奖励。并且,通过基于奖励,根据经过了强化学习的更新映射对关系规定数据进行更新,从而能够对车辆的状态与内燃机的操作部的操作量以及旋转电机的控制量之间的关系进行设定。因此,能够在设定车辆的状态与内燃机的操作部的操作量以及旋转电机的控制量之间的关系时,减少对熟练人员要求的工时。
本发明的又一其他方式是所述奖励算出处理包括在所述车辆中的能量消耗率小的情况下给与比该能量消耗率大的情况下大的奖励的处理的上述记载的车辆用控制数据的生成方法。对于上述构成,举出S68、S70的处理来作为其一个例子。
在上述构成中,能够对关系规定数据进行学习,以使得在使车辆的输出、驱动转矩接近要求值的同时,车辆中的能量消耗率变小。
本发明的又一其他方式是所述奖励算出处理包括在向所述旋转电机供给电力的蓄电装置的充电率处于预定比率范围内的情况下给与比该充电率脱离所述预定比率范围的情况下大的奖励的处理的上述记载的车辆用控制数据的生成方法。对于上述构成,举出S170、S172的处理来作为其一个例子。对于蓄电装置,举出电池170来作为其一个例子。
优选蓄电装置的充电率处于预定比率范围。于是,在上述构成中,通过奖励算出处理,在蓄电装置的充电率处于预定比率范围内的情况下给与比该充电率脱离预定比率范围的情况下大的奖励,由此,能够对在使蓄电装置的充电率为预定比率范围的方面适当的关系规定数据进行学习。
本发明的其他方式是所述奖励算出处理包括在向所述旋转电机供给电力的蓄电装置的温度处于预定温度范围内的情况下给与比该温度脱离所述预定温度范围的情况下大的奖励的处理的上述记载的车辆用控制数据的生成方法。对于上述构成,举出S174、S176的处理来作为其一个例子。对于蓄电装置,举出电池170来作为其一个例子。
优选蓄电装置的温度处于预定温度范围。于是,在上述构成中,通过奖励算出处理,在蓄电装置的温度处于预定温度范围内的情况下给与比该温度脱离预定温度范围的情况下大的奖励,能够对在使蓄电装置的温度为预定温度范围的方面适当的关系规定数据进行学习。
本发明的其他方式是车辆用控制装置,具备执行装置和存储装置,在所述存储装置存储有关系规定数据,所述关系规定数据对搭载有内燃机的车辆的状态、所述内燃机的操作部的操作量、以及关于基于所述内燃机的燃料消耗率、所述内燃机的排气特性以及搭载有所述内燃机的车辆的驾驶性能中的至少一个观点的奖励的期待收益的关系进行规定,所述执行装置执行:取得处理,取得对所述车辆的状态进行检测的传感器的检测值;选择处理,根据基于通过所述取得处理取得的所述检测值的所述车辆的状态和所述关系规定数据,对使所述期待收益最大化的所述操作量进行选择;以及操作处理,基于通过所述选择处理选择的所述操作量,对所述操作部进行操作。对于执行装置和存储装置,分别举出图8的CPU92以及ROM94和存储装置96来作为其一个例子。对于取得处理,举出图10的S42的处理来作为其一个例子。对于选择处理,举出图10的S44的处理来作为其一个例子。即,在S44的处理中,并不是每次必须选择贪婪行动,在不进行搜索的情况下选择了贪婪行动。对于操作处理,举出图10的S46的处理来作为其一个例子。
上述关系规定数据是对车辆的状态、操作部的操作量以及期待收益的关系进行规定的数据,因此,能够通过强化学习进行学习。因此,上述车辆用控制装置能够在适配操作部的操作量时,减少对熟练人员要求的工时。
本发明的其他方式是车辆用控制装置,具备执行装置和存储装置,在所述存储装置中存储有关系规定数据,所述关系规定数据对变速装置的状态、所述变速装置的操作量以及关于基于所述车辆的驾驶性能的奖励的期待收益的关系进行规定,所述变速装置是对搭载于车辆的内燃机的曲轴的转速进行变速来输出的装置,并且,使变速比为可变,所述执行装置执行:取得处理,取得对所述变速装置的状态进行检测的传感器的检测值;选择处理,基于通过所述取得处理取得的所述检测值和所述关系规定数据,对使所述期待收益最大化的所述操作量进行选择;以及操作处理,基于通过所述选择处理选择的所述操作量,对所述变速装置进行操作。对于执行装置和存储装置,分别举出图1和图8的CPU92以及ROM94和存储装置96来作为其一个例子。对于取得处理,举出S112的处理来作为其一个例子。对于选择处理,举出S114的处理来作为其一个例子。即,在S114的处理中,并不是每次必须选择贪婪行动,在不进行搜索的情况下选择了贪婪行动。对于操作处理,选择S116的处理来作为其一个例子。
上述关系规定数据是对变速装置的状态、变速装置的操作量以及期待收益的关系进行规定的数据,因此,能够通过强化学习进行学习。因此,上述车辆用控制装置能够在适配变速装置的操作量时,减少对熟练人员要求的工时。
本发明的又一其他方式是车辆用控制装置,具备执行装置和存储装置,在所述存储装置中存储有关系规定数据,所述关系规定数据对搭载了内燃机的车辆的状态与所述内燃机的操作部的操作量之间的关系进行规定,所述车辆的状态包括所述内燃机的状态,所述执行装置执行:取得处理,取得对所述车辆的状态进行检测的传感器的检测值;和操作处理,根据基于通过所述取得处理取得的所述检测值和所述关系规定数据的所述操作部的操作量来对所述操作部进行操作,所述关系规定数据对与所述车辆的预定状态有关的时间序列数据与所述操作量的关系进行规定。对于执行装置和存储装置,分别举出图17的CPU92以及ROM94和存储装置96来作为其一个例子。对于取得处理,举出S42b的处理来作为其一个例子。对于操作处理,举出S146的处理来作为其一个例子。对于预定状态,举出转速NE和填充效率η来作为其一个例子。
如上所述,要适配内燃机等的驱动系统的操作量,熟练人员花费了许多工时,因此,有动机要避免成为用于设定操作量的输入的状态的维数变大。但是,相比于关于预定状态仅基于一个采样值来设定操作量,基于在时间序列上前后的多个状态的采样值的时间序列数据来设定操作量有可能能够更适当地设定操作量。于是,在上述构成中,通过根据基于与预定状态有关的时间序列数据的操作量来对操作部进行操作,能够更适当地执行作为目标的控制。
本发明的又一其他方式是所述时间序列数据包括工作点变量的时间序列数据的上述记载的车辆用控制装置,所述工作点变量是对所述内燃机的工作点进行规定的变量。对于执行装置和存储装置,分别举出图17的CPU92以及ROM94和存储装置96来作为其一个例子。对于取得处理,举出S42b的处理来作为其一个例子。对于操作处理,举出S146的处理来作为其一个例子。对于预定状态,举出转速NE和填充效率η来作为其一个例子。
其他实施方式
此外,本实施方式可以如以下那样进行变更来实施。本实施方式和以下的变更例能够在技术上不矛盾的范围内相互组合来实施。
关于关系规定数据
1.关于行动价值函数Q
在上述实施方式中,将行动价值函数Q设为表形式的函数,但不限于此。例如,也可以使用函数近似器。
2.关于指示操作量的策略
在上述实施方式中,作为通过策略梯度法等进行更新的策略,使用多变量高斯分布,使其协方差矩阵为方差能够按行动的各维来独立地设定的对角矩阵,但不限于此。例如,也可以使行动的各维的方差为共同的值。另外,例如协方差矩阵也不必须为对角矩阵。另外,也不必须由线性映射和将线性映射的输出作为输入的函数f构成确定协方差矩阵的成分的函数近似器。例如也可以由神经网络构成。进一步,也不必须使确定多变量高斯分布的平均的函数近似器为神经网络。例如,也可以是将输入变量作为输入的多个基函数(basis functions)的线性耦合。此外,作为平均值μ(i)、方差σ(i)等的函数近似器的初始值的设定方法,不限于利用具备与内燃机10相同的排气量且相同的操作部的已适配的内燃机的控制。
3.关于状态
例如,也可以在催化剂38具备对PM进行捕集的过滤器,将沉积于该过滤器的PM量(PM沉积量)包含于状态。由此,通过对在PM沉积量变多的情况下执行过滤器的再生处理的行动给与高的奖励,通过强化学习对PM沉积量不会过度变多的控制进行学习将变得容易。此外,PM沉积量例如基于内燃机10的运转状态等来推定即可。
另外,例如将催化剂38的硫中毒量包含于状态。由此,通过对在硫中毒量变多的情况下执行催化剂38的再生处理的行动给与高的奖励,通过强化学习对硫中毒量不会过度变多的控制进行学习将变得容易。此外,硫中毒量例如基于要求喷射量Qf等来推定即可。
也可以在对操作部的操作量进行反馈控制的情况下对状态添加该反馈控制中的控制量。即,例如在上述实施方式中,节气门开口度指令值Tor*包含于行动,但节气门开口度Tor被反馈控制为节气门开口度指令值Tor*,因此,也可以包含节气门16的开口度(节气门Tor)来作为状态。由此,能够将对控制量的指令值的控制方式作为强化学习的学习对象。
例如优选在车辆VC1为进行自动转向的车辆的情况下,在状态中包含内燃机转矩要求值Trqeg*、内燃机输出要求值Peg*、输出要求值Ptot*、驱动转矩要求值Trq*来作为表示对于车辆的推力生成装置的输出的变量即输出变量。当然,在上述实施方式中,也可以代替加速器操作量ACCP而将内燃机转矩要求值Trqeg*、内燃机输出要求值Peg*、输出要求值Ptot*、驱动转矩要求值Trq*包含于状态来作为输出变量。
2-1.关于由时间序列数据表现的状态
在图18和图20的处理中,关于转速NE和填充效率η,将在时间序列上前后的6个数据包含于状态,但作为构成时间序列数据的采样数,不限于6个,既可以为2个以上,另外,也可以为3个以上。此时,构成时间序列数据的转速NE的采样数与构成时间序列数据的填充效率η的采样数也不必须相等。
在图18和图20的处理中,使用了转速NE的时间序列数据和填充效率η的时间序列数据,但关于该两个时间序列数据,也可以仅使用其中的一个时间序列数据。
作为设为强化学习中的状态的时间序列数据,不限定于表示内燃机10的工作点的变量即工作点变量。例如,既可以是加速器操作量ACCP等,例如也可以是进气相位差DIN等,另外,例如又可以是第1MG速度ωmg1、第2MG速度ωmg2等。此外,作为时间序列数据,不限于作为由函数近似器表现的策略π的输入的数据,例如也可以设为由函数近似器表现的行动价值函数Q的输入。
4.关于行动
作为行动,不限于上述实施方式中例示的行动。例如,也可以将喷射正时、一个燃烧循环中的喷射次数、一个燃烧循环的点火次数设为作为行动的操作量。另外,例如也可以是使滤罐66所捕集的燃料蒸汽流出到进气通路12的定时。另外,例如在内燃机10具备滚流控制阀(tumble control valve)的情况下,也可以将其操作量作为行动。另外,例如在内燃机10具备涡流控制阀(swirl control valve)的情况下,也可以将其操作量作为行动。另外,例如也可以在控制装置90执行内燃机10的启停控制的情况下,将启停的定时作为行动。另外,也可以在内燃机10的进气通路12具备绕过增压器14的通路和对其通路的流路截面积进行调整的空气旁通阀的情况下,将空气旁通阀的开口度作为操作量。另外,也可以在内燃机10具有对进气通路进行变更的构造的情况下,将其操作量作为行动。另外,在内燃机10在各气缸具备一对进气门20、能够将其中的一方选择性地保持为闭阀状态的情况下,也可以将是否选择性地设为闭阀状态作为行动。在该情况下,操作部成为进气门20。另外,例如也可以在控制装置90执行使特定气缸中的混合气的燃烧控制停止的控制的情况下,将有无执行该控制作为行动。在该情况下,所对应的操作部成为端口喷射阀18、缸内喷射阀28、点火装置30。另外,也可以在内燃机10为使压缩比可变的内燃机的情况下,将压缩比的操作作为行动。另外,也可以将对内燃机的冷却水的循环路径的流路截面积进行调整的流量控制阀的开口度作为行动。
此外,行动不必须为多维。例如,也可以在对现有的内燃机新追加预定的操作部的情况下,通过强化学习仅对该操作部的操作量与状态的关系进行学习。在该情况下,也可以在状态中包含其他操作部的操作量。
另外,也可以将变速装置80的油压设为作为行动的操作量。另外,也可以将变速装置80的控制量(变速比)作为行动。此外,作为行动,不限于内燃机10的操作部的操作量、变速装置80的操作量、控制量、第1电动发电机162、第2电动发电机166的控制量。例如,也可以是转矩转换器70的锁止离合器72有无接合。另外,例如也可以添加将节气门开口度Tor反馈控制为节气门开口度指令值Tor*的增益。
关于更新映射
1.关于行动价值函数Q的更新
1-1.关于将内燃机10的操作量作为行动的行动价值函数Q的更新
在S52、S54的处理中,例示了异策略TD法,但不限于此。例如也可以设为如SARSA法那样的同策略TD法(on-policy TD method)。另外,也可以使用资格迹法(eligibilitytrace method)来作为同策略型的学习。
当然,不限于此,例如也可以设为基于蒙特卡罗法的方法。
1-2.关于将变速装置80的操作量作为行动的行动价值函数Q的更新
在图7中,作为与变速装置80有关的行动价值函数Q的更新映射,例示了基于ε软同策略型蒙特卡罗法(ε-soft on-policy Monte Carlo method)的映射,但不限于此。例如,也可以是基于异策略型蒙特卡罗法(off-policy Monte Carlo method)的映射。当然,也不限于蒙特卡罗法,例如如S52、S54的处理那样也可以使用异策略TD法,另外,例如使用如SARSA法那样的同策略TD法,另外,或者例如使用资格迹法来作为同策略型的学习。
1-3.其他
作为行动价值函数Q,并不必须使将内燃机10的操作量作为行动的函数和将变速装置80的操作量作为行动的函数为不同的价值函数。另外,不限于将内燃机10的操作量作为行动的函数、将变速装置80的操作量作为行动的函数,例如也可以是将第1电动发电机162、第2电动发电机166的控制量作为行动的函数。另外,例如也可以使用将内燃机10的操作量、第1电动发电机162以及第2电动发电机166的控制量作为行动的它们共同的行动价值函数Q。另外,例如也可以使用将内燃机10的操作量和变速装置80的控制量作为行动的它们共同的行动价值函数Q。另外,例如也可以使用将内燃机10的操作量、变速装置80的操作量以及控制量作为行动的它们共同的行动价值函数Q。
此外,如“关于关系规定数据”的“1.关于行动价值函数Q”一栏记载的那样,在使用行动价值函数Q的函数近似器的情况下,更新映射例如构成为包括基于对行动价值函数Q进行规定的参数下的行动价值函数Q的偏微分来输出该参数的更新量的映射即可。
2.关于规定策略的函数近似器的参数的更新
在S164的处理中,将收益Ri设为了时间T的期间的简单平均,但不限于此。例如,也可以设为使用了越是过去的奖励r则通过预定的下降率γ越大地减少后的值而得到的和。这相当于指数移动平均处理。
在S164的处理中,也可以为代替收益Ri,而从收益Ri减去了不依赖于参数θ的适当的基线(baseline)函数。具体而言,基线函数例如优选为使期待收益J的参数下的偏微分的方差最小化的函数。
作为由通过函数近似器近似的策略指定的行动,不限定于内燃机10的操作量、第1电动发电机162以及第2电动发电机166的控制量。例如也可以是变速装置80的操作量、控制量。具体而言,既可以是仅指定变速装置80的操作量的策略,另外,例如也可以是指定内燃机10的操作量和变速装置80的操作量的策略,另外,例如还可以是指定内燃机10的操作量、变速装置80的操作量以及控制量的策略。另外,例如在下述“关于车辆”一栏所记载的并联式混合动力车具备变速装置的情况下,也可以是指定电动发电机的控制量和变速装置的操作量的策略、指定电动发电机的控制量和变速装置的控制量的策略、指定电动发电机的控制量和变速装置的操作量以及控制量的策略。另外,例如也可以是指定内燃机的操作部的操作量、电动发电机的控制量以及变速装置的操作量的策略、指定内燃机的操作部的操作量、电动发电机的控制量以及变速装置的控制量的策略、指定内燃机的操作部的操作量、电动发电机的控制量、变速装置的操作量以及控制量的策略。
3.其他
在图4、图7以及图10中,示出了在使用行动价值函数Q的情况下关于策略π被作为行动价值函数Q的更新结果来进行更新的例子,但不限于此。例如,也可以如Actor Critic法那样分别对行动价值函数Q和策略π进行更新。另外,在Actor Critic法中,不限于此,例如也可以代替行动价值函数Q而将价值函数V作为更新对象。
此外,学习率α不限定于固定值,也可以按照学习的进展程度来根据预先确定的规则进行变更。另外,关于确定策略π的“ε”,也不限定于固定值,也可以按照学习的进展程度来根据预先确定的规则进行变更。
关于奖励算出处理,
1.关于与燃料消耗率有关的奖励
在上述实施方式中,将累计值InQf作为输入,根据其大小来算出奖励,但不限于此。例如,也可以在二氧化碳向排气通路36的排出量小的情况下给与比该排出量大的情况下大的奖励。另外,例如,也可以设为即使累计值InQf、二氧化碳的排出量相同,在吸入空气量Ga大的情况下给与比吸入空气量Ga小的情况下大的奖励。
2.关于与排气特性有关的奖励
2-1.关于出厂前的学习
在S62~S66的处理中,根据上述条件(1)~条件(6)的逻辑积是否为真来确定了奖励,但不限于此。例如,也可以关于条件(1)~条件(6)分别给与条件成立的情况下比不成立的情况下大的奖励。
在S62~S66的处理中,也不必须使用全部的条件(1)~条件(6)。例如,关于条件(1)~条件(6)这6个条件,也可以仅基于那些中的1个~5个来给与奖励。
2-2.关于出厂后的学习
在S62a、S64、S66的处理中,根据条件(2)和条件(5)的逻辑积是否为真来确定了奖励,但不限于此。例如,也可以关于条件(2)和条件(5)分别给与条件成立的情况下比不成立的情况下大的奖励。
在S62a、S64、S66的处理中,也不必须使用条件(2)和条件(5)这两方。另外,也不必须仅使用条件(2)和条件(5)这两个中的至少一个。例如,也可以基于上述条件(1)、条件(3)、条件(4)以及条件(6)这4个条件中的几个来算出奖励。在此,在基于条件(3)、条件(4)来算出奖励的情况下,在车辆VC1具备专用的传感器,或者,搭载输出NOx量Qnox、未燃燃料量Qch的映射即可。此外,关于映射,例如按照PM量输出映射数据96c的方法在出厂前的学习时进行学习来生成即可。
2-3.其他
作为与排气特性有关的奖励,不限于此上述奖励。例如,也可以将排气温度Tex包含于奖励。在该情况下,例如如“关于关系规定数据”的“3.关于状态”一栏所记载的那样,在状态包含PM沉积量、硫中毒量的情况下,在它们的量多时,当排气温度为催化剂38能够再生的温度的情况下,给与大的奖励即可。
另外,例如也可以在催化剂38的温度处于预定范围内的情况下,给与比该温度脱离预定范围的情况下大的奖励。在此,预定范围例如设为排气的净化率高的温度范围即可。当然,如“关于关系规定数据”的“3.关于状态”一栏所记载的那样,在状态包含PM沉积量、硫中毒量的情况下,在它们的量多时,也可以在排气温度为催化剂38能够再生的温度的情况下给与大的奖励。
另外,例如也可以在不通过强化学习而对将转速NE和填充效率η等作为输入变量、并将EGR开口度指令值Egrvor作为输出变量的映射数据进行适配的情况下,在EGR开口度指令值Egrvor的设定中所设想的增压压力与增压压力Pa之差的绝对值为预定值以下时,给与比该绝对值超过预定值时大的奖励。这是鉴于在增压压力Pa从所设想的值偏离的情况下,EGR量的控制会偏离设想。另外,也可以代替增压压力,而使用增压器14的实际的涡轮机转速与在EGR开口度指令值Egrvor的设定中所设想的涡轮机转速之差。
3.关于与驾驶性能有关的奖励
在S72~S76的处理中,根据上述条件(11)~条件(13)的逻辑积是否为真来确定了奖励,但不限定于此。例如,也可以关于条件(11)~条件(13)分别给与条件成立的情况下比不成立的情况下大的奖励。
在S72~S76的处理中,也不必须使用全部的条件(11)~条件(13)。例如,关于条件(11)~条件(13)这3个条件,也可以基于它们中的1个或者2个来给与奖励。
作为与驾驶性能有关的奖励,不限于上述。例如,也可以在曲轴32、输出轴84等的驱动系统的各种旋转轴的旋转变动量的大小为预定值以下下的情况下给与比该大小超过预定值的情况下大的奖励。
在此,旋转变动量也可以成为在车辆的振动处于预定范围的情况下给与车辆的振动不处于预定范围的情况下大的奖励的处理。即,给与与驾驶性能有关的奖励的处理可以为如下3个中的至少一个。即是在加速度、加速度的变化速度(加加速度)等的车辆的行为满足基准的情况下给与该行为不满足基准的情况下大的奖励的处理、在噪声处于预定范围内的情况下给与比噪声不处于预定范围内的情况下大的奖励的处理、以及在车辆的振动处于预定范围内的情况下给与比车辆的振动不处于预定范围内的情况下大的奖励的处理这3个处理。
4.内燃机总体
也可以在水温THW处于预定温度范围内的情况下给与比水温THW脱离预定温度范围的情况下大的奖励。另外,也可以在油温Toil处于预定温度范围内的情况下给与比油温Toil脱离预定温度范围的情况下大的奖励。
不限于给与全部的与燃料消耗率有关的奖励、与排气特性有关的奖励、与驾驶性能有关的奖励以及与内燃机转矩要求值Trqeg*(内燃机输出要求值Peg*)有关的奖励。例如关于那些4个奖励,也可以仅给与其中的一个,仅给与2个,或者仅给与3个。
此外,在不给与与内燃机转矩要求值Trqeg*(内燃机输出要求值Peg*)有关的奖励的情况下,例如基于加速器操作量ACCP,不通过强化学习地对节气门开口度指令值Tor*进行设定即可。
顺便说一下,在给与与燃料消耗率有关的奖励的情况下,优选将要求喷射量Qf、点火正时aig、喷射分配率Kp、每1个燃烧循环的喷射次数、进气相位差指令值DIN*、WGV开口度指令值Wgvor、EGR开口度指令值Egrvor中的至少一个包含于行动。
另外,在给与与排气特性有关的奖励的情况下,优选将如下所例示的中的至少一个包含于行动。即优选包含要求喷射量Qf、点火正时aig、喷射分配率Kp、每1个燃烧循环的喷射次数、进气相位差指令值DIN*、WGV开口度指令值Wgvor、EGR开口度指令值Egrvor、燃压指令值Pf*、吹扫操作量Pg、每1个燃烧循环的点火次数中的至少一个。当然,不限于那些,也可以包含上述“关于关系规定数据”的“4.关于行动”一栏中所记载的使滤罐66所捕集的燃料蒸汽流出到进气通路12的定时、滚流控制阀的操作量、涡流控制阀的操作量、启停的定时中的至少一个。另外,例如也可以将空气旁通阀的开口度、内燃机10具有对进气通路进行变更的构造的情况下的其操作量、内燃机10在各气缸具备一对进气门20且能够将其中的一方选择性地保持为闭阀状态的情况下的是否选择性地设为闭阀状态包含于行动。另外,例如也可以在执行使特定气缸中的混合气的燃烧控制停止的控制的情况下,将有无执行该控制、内燃机10为使压缩比可变的内燃机的情况下的压缩比的操作包含于行动。另外,例如也可以将流量控制阀的开口度包含于行动。
另外,在给与与驾驶性能有关的奖励的情况下,优选将节气门开口度指令值Tor*、WGV开口度指令值Wgvor、油压Poila、Poilb、……中的至少一个包含于行动。
5.关于伴随着变速装置的操作的奖励
在S120、S122的处理中,根据上述条件(10)~条件(12)的逻辑积是否为真来确定了奖励,但不限于此。例如,也可以关于条件(10)~条件(12)分别给与条件成立的情况下比不成立的情况下大的奖励。
在S120、S122的处理中,也不必须使用全部的条件(10)~条件(12)。例如,关于条件(10)~条件(12)这3个条件,也可以仅基于它们中的1个或者2个来给与奖励。
此外,关于基于上述条件(11)和条件(12)的奖励,也可以设为在正进行变速的期间中逐次进行给与。此外,作为伴随着变速装置的操作的奖励,不限于如上述那样地基于驾驶性能的观点的奖励。例如,在如“关于关系规定数据”的“4.关于行动”一栏所记载的那样将变速装置80的控制量包含于行动等情况下,也可以使用与燃料消耗率有关的奖励。
5.关于与混合动力车辆有关的奖励
在上述实施方式中,在执行在电池温度Tbatt处于预定范围以内的情况下给与比电池温度Tbatt脱离预定范围的情况下大的奖励的处理时,未确定预定范围的下限值,但不限于此。
不限于使用与充电率SOC相应的奖励和与电池温度Tbatt相应的奖励这两方。例如,关于该两个奖励,也可以仅使用其中的一个。
当然,与充电率SOC相应的奖励和与电池温度Tbatt相应的奖励这两方都不使用也可以。例如,也可以仅是在输出要求值Ptot*与输出Ptot之差的绝对值小的情况下给与比该绝对值大的情况下大的奖励,或者在驱动转矩要求值Trq*与驱动转矩Trq之差的绝对值小的情况下给与比该绝对值大的情况下大的奖励。在该情况下,能够通过强化学习对实现输出要求值Tot*、驱动转矩要求值Trq*方面的内燃机10和第1电动发电机162、第2电动发电机166的动力分配进行学习。
6.关于其他的奖励
例如在如“关于关系规定数据”的“4.关于行动”一栏所记载的那样,锁止离合器72有无接合是行动的情况下,也可以在声压为预定值以下时给与比声压超过预定值的情况下大的奖励。
7.关于奖励的算出定时
在图4、图10的处理中,在进行基于行动at的操作后立刻算出了奖励rt。在该情况下,到行动at的结果反映于上游侧检测值Afu、下游侧检测值Afd为止需要时间,因此,利用了将在稳态状态下在基于行动at的操作后立刻取得的上游侧检测值Afu等视为是伴随着行动at的。但是,不限于这样的方法,例如也可以设为:通过使基于所选择的行动at的操作和行动价值函数Q的更新的定时错开,从而在相对于基于行动at的操作的定时错开了的定时对伴随着行动at而用于奖励rt的算出的上游侧检测值Afu等进行采样。
当然,代替于此,也可以代替逐次给与奖励,而通过使用蒙特卡罗法来应对这样的问题。
·“关于选择处理”
也可以设为:在图10的S44的处理中,必须选择贪婪行动,删除S50a~S54、S58的处理,反复进行S42~S46的处理。此外,在由函数近似器表现行动价值函数的情况下,S44的处理设为基于行动a的各成分下的偏微分等来搜索最大值的处理即可。当然,代替于此,关于行动a,也可以进定义离散的值,向被输入了通过S42的处理取得的状态的函数近似器输入行动的候选,选择函数近似器的输出值成为最大的行动。在该情况下,也可以在选择之前,预先通过Softmax函数对函数近似器的输出值进行标准化。
关于车辆用控制数据的生成方法
在图4的S44的处理中,例示了基于行动价值函数Q来决定行动的处理,但不限于此,在车辆出厂前的车辆用控制数据的生成工序等中,也可以等概率地选择可取的全部行动。
关于控制用映射数据
在图2的处理中,全部操作量的输入变量相同,但不限于此。例如,也可以删除对于操作量的设定来说相关性低的状态。这例如能够在使用函数近似器来执行强化学习时通过使用L1正则化项等对参数θ进行更新,从而适当地加以实现。
作为通过将车辆的状态与使期待收益最大化的内燃机10的操作部的操作量一对一地关联来将车辆的状态作为输入、并输出使期待收益最大化的操作量的控制用映射数据,不限于映射数据96b。例如,也可以代替在图4的处理中对行动价值函数Q进行更新,而通过策略梯度法对策略π的参数θ进行更新,将学习后的确定平均值μ(1)、μ(2)、……的函数近似器自身作为控制用映射数据来安装于控制装置90。由此,CPU92将状态s作为向函数近似器的输入来求出平均值μ(1)、μ(2)、……,将其作为各操作量来对操作信号MS1、MS2、……进行操作即可。
此外,作为控制用映射数据,不限于对将车辆的状态作为输入、将内燃机10的操作部的操作量作为输出的映射进行规定的数据,例如也可以是对将车辆的状态作为输入、将变速装置80的操作量、控制量作为输出的映射进行规定的数据。另外,例如也可以是对将车辆的状态作为输入、将第1电动发电机162和第2电动发电机166的控制量作为输出的映射进行规定的数据。
关于控制用映射数据的生成方法
在图4的处理中,也可以在S56的处理中作出肯定判定的情况下,将各状态s和贪婪行动a的组定义为代表点,将行动价值函数的自变量的定义域中的行动重新定义为代表点和从代表点偏移了一个单位后的值,反复进行S42~S56的处理。当然,将代表点和从代表点偏移了一个单位后的值作为定义域自身不是必须的。
在图6所例示的处理中,根据状态s来选择作为表形式的函数的行动价值函数Q的值成为最大的行动a,基于状态s和行动a的组来生成了映射数据,但不限于此。例如,也可以使用由函数近似器表现的行动价值函数Q。当然,也不限于使用行动价值函数Q。例如也可以代替在图4的处理中对行动价值函数Q进行更新,而设为通过策略梯度法对策略π的参数θ进行更新,在图6的处理中,将根据状态s确定的平均值μ作为行动。
关于车辆用控制系统
在图20所示的例子中,在数据解析中心200中算出了奖励,但不限于此,也可以在控制装置90侧进行算出,并发送给数据解析中心200。
在图18和图20所示的例子中,使用了策略梯度法,但不限于此。例如,也可以使用表形式的行动价值函数Q、由函数近似器表现的行动价值函数Q。
关于执行装置
作为执行装置,不限于具备CPU92(152、202)和ROM94(154、204)来执行软件处理。例如,也可以具备对在上述实施方式中被进行了软件处理的部分的至少一部分进行硬件处理的专用的硬件电路(例如ASIC等)。即,执行装置为以下的(a)~(c)中的任一构成即可。
(a)具备按照程序来执行全部的上述处理的处理装置、和存储程序的ROM等的程序保存装置。
(b)具备按照程序来执行上述处理的一部分的处理装置以及程序保存装置、和执行剩余的处理的专用的硬件电路。
(c)具备执行全部的上述处理的专用的硬件电路。在此,具备处理装置和程序保存装置的软件执行装置、专用的硬件电路也可以为多个。
关于存储装置
在上述实施方式中,使存储关系规定数据96a、156a的存储装置和存储学习程序94a、154a、控制程序94b、控制子程序94c、控制主程序204a的存储装置(ROM94、154、204)为不同的存储装置,但不限于此。另外,例如,在上述实施方式中,学习程序94a、154a不包含学习率α的数据,学习程序94a、154a自身存储于ROM94、154、204,但关于学习率α,也可以存储于存储装置96、156、206。
关于内燃机
作为内燃机,不限于具备端口喷射阀18和缸内喷射阀28这两方的内燃机,也可以是仅具备该两种燃料喷射阀中的任一种的内燃机。内燃机10不必须具备增压器14。另外,例如也可以不具备EGR通路52、EGR阀54。此外,在不具备增压器14的情况下,也可以代替吹扫泵68而使用吹扫阀来作为对从滤罐66向进气通路12的燃料蒸汽的流量进行调整的调整装置。在该情况下,也可以对行动使用吹扫阀的开口度等。
作为内燃机,不限于火花点火式内燃机,例如也可以是使用轻油等来作为燃料的压缩着火式内燃机等。
·“关于混合动力车辆”
作为混合动力车辆,不限于混联式混合动力车,例如也可以是串联式混合动力车、并联式混合动力车。
其他
作为旋转电机的驱动电路,不限于变换器,例如也可以在旋转电机为直流旋转电机的情况下使用H网桥电路。作为蓄电装置,不限于电池170,例如也可以是电容器。

Claims (13)

1.一种车辆用控制数据的生成方法,其特征在于,包括:
存储装置存储关系规定数据,所述关系规定数据是对具备内燃机的车辆的状态与所述内燃机的操作部的操作量之间的关系进行规定的数据,所述车辆的状态包括了所述内燃机的状态;
执行装置对所述操作部进行操作;
所述执行装置取得对所述车辆的状态进行检测的传感器的检测值;
所述执行装置基于所述检测值,算出基于燃料消耗率、排气特性以及驾驶性能中的至少一个观点的奖励;以及
所述执行装置使用预先确定的更新映射来更新所述关系规定数据,所述更新映射将基于所述检测值的所述车辆的状态、所述操作部的操作中所使用了的操作量以及与该操作对应的所述奖励作为自变量,返回以使关于按照所述关系规定数据来操作所述操作部的情况下所算出的所述奖励的期待收益增加的方式进行了更新的所述关系规定数据。
2.根据权利要求1所述的车辆用控制数据的生成方法,其特征在于,
所述排气特性为预定特性的情况下的所述奖励比所述排气特性不是预定特性的情况下的所述奖励大,
所述预定特性包括氮氧化物的排出量处于预定范围内、未燃燃料的排出量处于预定范围内、颗粒状物质的排出量处于预定范围内、以及设置于所述内燃机的排气通路的催化剂的温度处于预定范围内中的至少一个。
3.根据权利要求1或者2所述的车辆用控制数据的生成方法,其特征在于,
所述执行装置以使得满足所述车辆的加速度处于第一预定范围内的情况下的根据所述驾驶性能的观点而定量化了的奖励比所述车辆的加速度为所述第一预定范围外的情况下的所述奖励大、所述车辆的加加速度处于第二预定范围内的情况下的根据所述驾驶性能的观点而定量化了的奖励比所述加加速度为所述第二预定范围外的情况下的所述奖励大、以及所述内燃机产生的声音的大小处于第三预定范围内的情况下的根据所述驾驶性能的观点而定量化了的奖励比所述声音的大小为所述第三预定范围外的情况下的所述奖励大中的至少一个的方式算出所述奖励。
4.根据权利要求1~3中任一项所述的车辆用控制数据的生成方法,其特征在于,还包括:
所述执行装置通过基于被更新了的所述关系规定数据将所述车辆的状态与使所述期待收益最大化的所述操作量一对一地关联,从而生成将所述车辆的状态作为自变量、并返回使所述期待收益最大化的所述操作量的控制用映射数据。
5.一种车辆用控制装置,其特征在于,包括构成为执行权利要求1~3中任一项所述的生成方法的存储装置和执行装置,
所述执行装置构成为基于根据所述关系规定数据和所述车辆的状态确定的所述操作量来对所述操作部进行操作。
6.根据权利要求5所述的车辆用控制装置,其特征在于,
所述执行装置构成为:
取得所述内燃机的输出和转矩这两个中的至少一个的要求值和算出值来作为所述检测值,
以使得所述要求值和所述算出值之差的绝对值为预定值以下的情况下的所述奖励比所述绝对值大于所述预定值的情况下的所述奖励大的方式算出所述奖励。
7.根据权利要求5或者6所述的车辆用控制装置,其特征在于,
所述车辆具备变速装置,所述变速装置构成为对所述内燃机的曲轴的转速进行变速来输出,并且构成为能够改变变速比,
由所述关系规定数据规定的关系包括所述变速装置的状态与所述变速装置的操作量之间的关系,
所述执行装置构成为:
取得构成为对所述变速装置的状态进行检测的传感器所检测到的值来作为所述检测值,
以使得满足所述变速装置的变速比的切换所需要的时间为预定时间以内的情况下的所述奖励比所述时间超过所述预定时间的情况下的所述奖励大、所述变速装置的输入轴的转速的变化速度的绝对值为输入侧预定值以下的情况下的所述奖励比所述输入轴的转速的变化速度的绝对值超过所述输入侧预定值的情况下的所述奖励大、所述变速装置的输出轴的转速的变化速度的绝对值为输出侧预定值以下的情况下的所述奖励比所述输出轴的转速的速度变化的绝对值超过所述输出侧预定值的情况下的所述奖励大、以及通过所述变速装置的电磁阀调整的油压满足预定条件的情况下的所述奖励比所述油压不满足所述预定条件的情况下的所述奖励大中的至少一个的方式算出所述奖励,
使用将与所述变速装置的状态有关的所述检测值作为自变量的所述更新映射,对由所述关系规定数据规定的所述变速装置的状态与所述变速装置的操作量之间的关系进行更新。
8.根据权利要求5~7中任一项所述的车辆用控制装置,其特征在于,
所述车辆具备构成为对驱动轮提供动力的旋转电机,
由所述关系规定数据规定的关系包括向所述旋转电机供给电力的蓄电装置的状态与所述旋转电机的控制量之间的关系,
所述执行装置构成为:
对所述旋转电机的驱动电路进行操作,
取得所述蓄电装置的状态来作为所述检测值,
以使得所述蓄电装置的状态处于预定范围内的情况下的所述奖励比所述蓄电装置的状态成为预定范围外的情况下的所述奖励大的方式算出所述奖励,
通过将所述蓄电装置的状态和所述旋转电机的控制量作为所述更新映射的自变量,从而对由所述关系规定数据规定的所述蓄电装置的状态与所述旋转电机的控制量之间的关系进行更新。
9.根据权利要求8所述的车辆用控制装置,其特征在于,
所述执行装置构成为:
取得所述车辆的输出和驱动转矩这两个中的至少一个的要求值和算出值来作为检测值,
以使得关于所述车辆的输出和所述驱动转矩这两个中的所述至少一个的所述要求值和所述算出值之差的绝对值为预定值以下的情况下的所述奖励比所述绝对值大于所述预定值的情况下的所述奖励大的方式算出所述奖励。
10.根据权利要求5~9中任一项所述的车辆用控制装置,其特征在于,
所述关系规定数据包括对所述车辆的状态、所述期待收益以及所述操作量的关系进行规定的数据,
所述执行装置进一步构成为基于所述检测值和所述关系规定数据,相比于减小所述期待收益的操作量,优先选择增大所述期待收益的操作量,
所述执行装置构成为基于所选择的所述操作量来对所述操作部进行操作。
11.根据权利要求5~10中任一项所述的车辆用控制装置,其特征在于,
所述关系规定数据是对函数近似器进行规定的数据,所述函数近似器将所述车辆的状态作为自变量、并返回所述操作量的选择概率,
所述更新映射包括返回对所述函数近似器进行规定的参数的更新量的映射。
12.一种车辆用控制系统,其特征在于,包括权利要求5~11中任一项所述的车辆用控制装置,
所述执行装置包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置,
所述第1执行装置至少执行所述取得和所述操作,
所述第2执行装置至少执行所述更新。
13.根据权利要求12所述的车辆用控制系统,其特征在于,
所述第1执行装置构成为进一步执行:
向所述第2执行装置发送与所述检测值有关的数据,
接收由所述第2执行装置发送的所述操作量,
基于从所述第2执行装置接收到的所述操作量来对所述操作部进行操作,
所述第2执行装置构成为进一步执行:
接收由所述第1执行装置发送的数据,
基于从所述第1执行装置接收到的所述数据和所述关系规定数据来算出所述操作量,
发送所算出的所述操作量。
CN202011094561.4A 2019-10-18 2020-10-14 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统 Pending CN112677984A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019191092A JP6970156B2 (ja) 2019-10-18 2019-10-18 車両の制御に用いるデータの生成方法、車両用制御装置、車両用制御システム、車載装置および車両用学習装置
JP2019-191092 2019-10-18

Publications (1)

Publication Number Publication Date
CN112677984A true CN112677984A (zh) 2021-04-20

Family

ID=72885418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011094561.4A Pending CN112677984A (zh) 2019-10-18 2020-10-14 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统

Country Status (13)

Country Link
US (1) US11673556B2 (zh)
EP (1) EP3809340A1 (zh)
JP (1) JP6970156B2 (zh)
KR (1) KR20210046557A (zh)
CN (1) CN112677984A (zh)
AU (1) AU2020256407B2 (zh)
BR (1) BR102020020775A2 (zh)
CA (1) CA3096152A1 (zh)
MX (1) MX2020010940A (zh)
PH (1) PH12020050409A1 (zh)
RU (1) RU2747276C1 (zh)
SG (1) SG10202010147SA (zh)
TW (1) TW202117179A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210114596A1 (en) * 2019-10-18 2021-04-22 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
CN114148343A (zh) * 2021-12-23 2022-03-08 盛瑞传动股份有限公司 一种车辆控制方法、装置、电子设备及计算机存储介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11603111B2 (en) * 2019-10-18 2023-03-14 Toyota Jidosha Kabushiki Kaisha Vehicle controller, vehicle control system, and learning device for vehicle
JP7205503B2 (ja) 2020-01-22 2023-01-17 トヨタ自動車株式会社 内燃機関の制御装置
JP7222366B2 (ja) * 2020-01-27 2023-02-15 トヨタ自動車株式会社 内燃機関の制御装置
JP7359011B2 (ja) 2020-02-05 2023-10-11 トヨタ自動車株式会社 内燃機関の制御装置
US11459962B2 (en) * 2020-03-02 2022-10-04 Sparkcognitton, Inc. Electronic valve control
CN113638812B (zh) * 2021-08-30 2023-04-25 深圳天鹰兄弟无人机创新有限公司 一种混合动力无人机增程器控制系统
DE102022103270A1 (de) * 2022-02-11 2023-08-17 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Assistenzsystem zur automatischen Geräuschoptimierung und Kraftfahrzeug
WO2024012655A1 (en) * 2022-07-11 2024-01-18 Volvo Truck Corporation Improved estimation of effective wheel rolling radius

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250604A (ja) * 1999-03-02 2000-09-14 Yamaha Motor Co Ltd 特性最適化方法における最適化の協調方法
CN1642768A (zh) * 2002-03-15 2005-07-20 艾热戴奈米克斯公司 用于控制混合电动车辆的运行条件以优化车辆运行特性的方法、装置、媒质和信号
US20180293512A1 (en) * 2017-04-11 2018-10-11 International Business Machines Corporation New rule creation using mdp and inverse reinforcement learning
CN109709956A (zh) * 2018-12-26 2019-05-03 同济大学 一种自动驾驶车辆速度控制多目标优化的跟驰算法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6549815B1 (en) 1999-03-02 2003-04-15 Yamaha Hatsudoki Kabushiki Kaisha Method and apparatus for optimizing overall characteristics of device, using heuristic method
US7415389B2 (en) * 2005-12-29 2008-08-19 Honeywell International Inc. Calibration of engine control systems
GB0605069D0 (en) * 2006-03-14 2006-04-26 Airmax Group Plc Method and system for driver style monitoring and analysing
JP4245626B2 (ja) * 2006-10-11 2009-03-25 トヨタ自動車株式会社 車両およびその制御方法
JP5162998B2 (ja) * 2006-10-12 2013-03-13 日産自動車株式会社 ハイブリッド車両のモード切り替え制御装置
US7954579B2 (en) * 2008-02-04 2011-06-07 Illinois Institute Of Technology Adaptive control strategy and method for optimizing hybrid electric vehicles
US7945370B2 (en) * 2008-02-07 2011-05-17 Caterpillar Inc. Configuring an engine control module
KR20110129980A (ko) * 2008-03-19 2011-12-02 클린 에미션스 테크놀로지스, 인코포레이티드 전기 견인 시스템 및 방법
US8060290B2 (en) * 2008-07-17 2011-11-15 Honeywell International Inc. Configurable automotive controller
JP5225322B2 (ja) 2010-04-21 2013-07-03 ジヤトコ株式会社 自動変速機の制御装置及び制御方法
JP4975158B2 (ja) * 2010-11-08 2012-07-11 本田技研工業株式会社 プラントの制御装置
KR101371461B1 (ko) * 2012-09-06 2014-03-10 기아자동차주식회사 하이브리드 차량의 엔진클러치의 토크전달 시작점 학습 제어 방법 및 시스템
US9371792B2 (en) * 2013-06-27 2016-06-21 Hondata, Inc. Active tuning system for engine control unit
JP5864510B2 (ja) * 2013-10-18 2016-02-17 富士通株式会社 修正プログラム確認方法、修正プログラム確認プログラム、及び情報処理装置
US9182764B1 (en) * 2014-08-04 2015-11-10 Cummins, Inc. Apparatus and method for grouping vehicles for cooperative driving
US9619949B2 (en) * 2014-10-06 2017-04-11 Shem, Llc Vehicle operator incentive system and vehicle fleet management platform
US20160131062A1 (en) 2014-11-10 2016-05-12 Caterpillar Inc. Engine system utilizing selective engine optimization
JP6026612B2 (ja) 2015-09-22 2016-11-16 本田技研工業株式会社 車両用内燃機関の制御装置
JP6414143B2 (ja) * 2016-06-16 2018-10-31 トヨタ自動車株式会社 内燃機関の制御装置
JP6950524B2 (ja) 2017-12-28 2021-10-13 トヨタ自動車株式会社 ハイブリッド車両の制御装置
US10746123B2 (en) * 2018-08-21 2020-08-18 Cummins Inc. Deep reinforcement learning for air handling and fuel system referencing
JP6547991B1 (ja) * 2019-02-20 2019-07-24 トヨタ自動車株式会社 触媒温度推定装置、触媒温度推定システム、データ解析装置、および内燃機関の制御装置
CN110254418B (zh) 2019-06-28 2020-10-09 福州大学 一种混合动力汽车增强学习能量管理控制方法
JP7439680B2 (ja) * 2020-07-28 2024-02-28 トヨタ自動車株式会社 変速制御データの生成方法、変速制御装置、変速制御システム、および車両用学習装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250604A (ja) * 1999-03-02 2000-09-14 Yamaha Motor Co Ltd 特性最適化方法における最適化の協調方法
CN1642768A (zh) * 2002-03-15 2005-07-20 艾热戴奈米克斯公司 用于控制混合电动车辆的运行条件以优化车辆运行特性的方法、装置、媒质和信号
US20180293512A1 (en) * 2017-04-11 2018-10-11 International Business Machines Corporation New rule creation using mdp and inverse reinforcement learning
CN109709956A (zh) * 2018-12-26 2019-05-03 同济大学 一种自动驾驶车辆速度控制多目标优化的跟驰算法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210114596A1 (en) * 2019-10-18 2021-04-22 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
US11654915B2 (en) * 2019-10-18 2023-05-23 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
CN114148343A (zh) * 2021-12-23 2022-03-08 盛瑞传动股份有限公司 一种车辆控制方法、装置、电子设备及计算机存储介质

Also Published As

Publication number Publication date
CA3096152A1 (en) 2021-04-18
BR102020020775A2 (pt) 2021-07-13
US20210115834A1 (en) 2021-04-22
RU2747276C1 (ru) 2021-05-04
KR20210046557A (ko) 2021-04-28
TW202117179A (zh) 2021-05-01
SG10202010147SA (en) 2021-05-28
MX2020010940A (es) 2021-04-19
AU2020256407A1 (en) 2021-05-06
EP3809340A1 (en) 2021-04-21
AU2020256407B2 (en) 2022-03-03
PH12020050409A1 (en) 2021-08-23
JP2021067191A (ja) 2021-04-30
US11673556B2 (en) 2023-06-13
JP6970156B2 (ja) 2021-11-24

Similar Documents

Publication Publication Date Title
CN112677984A (zh) 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统
EP2527933B1 (en) Control apparatus
CN112682200B (zh) 车辆用控制数据的生成方法、车辆用控制装置和车辆用控制系统
US11225924B2 (en) Imbalance detection device, imbalance detection system, data analysis device, and controller for internal combustion engine
JP6624319B1 (ja) 触媒劣化検出装置、触媒劣化検出システム、データ解析装置、内燃機関の制御装置、および中古車の状態情報提供方法
JP7302466B2 (ja) 車両用内燃機関の劣化判定装置
CN113006951B (zh) 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置
JP7331704B2 (ja) 車両用制御データの生成方法、車両用制御装置、および車両用制御システム
US11840245B2 (en) Vehicle control data generation method, vehicle controller, vehicle control system, vehicle learning device, vehicle control data generation device, and memory medium
CN112682196B (zh) 车辆用控制装置、车辆用控制系统、以及车辆用学习装置
JP2021066418A (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP2021067260A (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
CN113266481A (zh) 车辆控制方法、车辆用控制装置以及服务器
JP7205456B2 (ja) 車両用制御装置、車両用制御システム、および車両用学習装置
JP7205460B2 (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP2021176032A (ja) 制御装置
JP2021067256A (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
Radmilovic et al. Vibration comfort control for HEV based on machine learning
JP2020133620A (ja) 触媒劣化検出装置、触媒劣化検出システム、データ解析装置、内燃機関の制御装置、および中古車の状態情報提供方法
JPH10169484A (ja) 車両用内燃機関の出力トルク制御装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination