CN113107685A - 车辆用控制数据的生成方法及装置、车辆用控制装置及系统、车辆用学习装置以及存储介质 - Google Patents

车辆用控制数据的生成方法及装置、车辆用控制装置及系统、车辆用学习装置以及存储介质 Download PDF

Info

Publication number
CN113107685A
CN113107685A CN202110010997.9A CN202110010997A CN113107685A CN 113107685 A CN113107685 A CN 113107685A CN 202110010997 A CN202110010997 A CN 202110010997A CN 113107685 A CN113107685 A CN 113107685A
Authority
CN
China
Prior art keywords
vehicle
value
variable
state
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110010997.9A
Other languages
English (en)
Other versions
CN113107685B (zh
Inventor
桥本洋介
片山章弘
大城裕太
杉江和纪
冈尚哉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN113107685A publication Critical patent/CN113107685A/zh
Application granted granted Critical
Publication of CN113107685B publication Critical patent/CN113107685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/182Selecting between different operative modes, e.g. comfort and performance modes
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D11/00Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated
    • F02D11/06Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated characterised by non-mechanical control linkages, e.g. fluid control linkages or by control linkages with power drive or assistance
    • F02D11/10Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated characterised by non-mechanical control linkages, e.g. fluid control linkages or by control linkages with power drive or assistance of the electric type
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/06Improving the dynamic response of the control system, e.g. improving the speed of regulation or avoiding hunting or overshoot
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/04Conjoint control of vehicle sub-units of different type or different function including control of propulsion units
    • B60W10/06Conjoint control of vehicle sub-units of different type or different function including control of propulsion units including control of combustion engines
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/10Conjoint control of vehicle sub-units of different type or different function including control of change-speed gearings
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/12Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to parameters of the vehicle itself, e.g. tyre models
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/082Selecting or switching between different modes of propelling
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/085Changing the parameters of the control units, e.g. changing limit values, working points by control input
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D11/00Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated
    • F02D11/06Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated characterised by non-mechanical control linkages, e.g. fluid control linkages or by control linkages with power drive or assistance
    • F02D11/10Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated characterised by non-mechanical control linkages, e.g. fluid control linkages or by control linkages with power drive or assistance of the electric type
    • F02D11/105Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated characterised by non-mechanical control linkages, e.g. fluid control linkages or by control linkages with power drive or assistance of the electric type characterised by the function converting demand to actuation, e.g. a map indicating relations between an accelerator pedal position and throttle valve opening or target engine torque
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D45/00Electrical control not provided for in groups F02D41/00 - F02D43/00
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0026Lookup tables or parameter maps
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0062Adapting control system settings
    • B60W2050/0075Automatic parameter input, automatic initialising or calibrating means
    • B60W2050/0083Setting, resetting, calibration
    • B60W2050/0088Adaptive recalibration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/06Combustion engines, Gas turbines
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/10Accelerator pedal position
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/16Ratio selector position
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/215Selection or confirmation of options
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2710/00Output or target parameters relating to a particular sub-units
    • B60W2710/06Combustion engines, Gas turbines
    • B60W2710/0605Throttle position
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2710/00Output or target parameters relating to a particular sub-units
    • B60W2710/06Combustion engines, Gas turbines
    • B60W2710/0644Engine speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2710/00Output or target parameters relating to a particular sub-units
    • B60W2710/06Combustion engines, Gas turbines
    • B60W2710/0666Engine torque
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2710/00Output or target parameters relating to a particular sub-units
    • B60W2710/10Change speed gearings
    • B60W2710/1005Transmission ratio engaged

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Combined Controls Of Internal Combustion Engines (AREA)
  • Electrical Control Of Air Or Fuel Supplied To Internal-Combustion Engine (AREA)

Abstract

提供一种车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统、车辆用学习装置、车辆用控制数据的生成装置以及存储装置。喜好变量表示用户对两个以上的要求要素的相对喜好。两个以上的要求要素包括由车辆的加速器响应高这一要求要素、车辆的振动和噪声中的至少一个小这一要求要素以及能量利用效率高这一要求要素构成的三个要求要素中的至少两个。相对于在喜好变量的值为第1值的情况下车辆的特性为预定特性时所给予的奖励,在喜好变量的值为第2值的情况下车辆的特性为预定特性时所给予的奖励被进行变更。

Description

车辆用控制数据的生成方法及装置、车辆用控制装置及系统、 车辆用学习装置以及存储介质
技术领域
本公开涉及车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置。
背景技术
例如日本特开2016-6327号公报记载了一种控制装置,其基于对加速踏板的操作量进行了滤波处理后的值,对作为搭载于车辆的内燃机的操作部的节气门进行操作。
另外,上述滤波器需要根据加速踏板的操作量来将搭载于车辆的内燃机的节气门的操作量设定为适当的操作量。由此,滤波器的适配需要熟练人员花费许多工时。
这样,以往以来,对于与车辆的状态相应的车辆内的电子设备的操作量等的适配,熟练人员花费了许多工时。
发明内容
以下,对本公开的例子(Aspect)进行记载。
例1.一种车辆用控制数据的生成方法,所述生成方法包括:在关系规定数据存储于存储装置的状态下,通过执行装置取得喜好变量和基于传感器的检测值的车辆的状态,所述关系规定数据对所述车辆的状态与行动变量的关系进行规定,所述行动变量是与所述车辆内的电子设备的操作有关的变量,所述喜好变量是表示用户对两个以上的要求要素的相对喜好的变量;在所述关系规定数据存储于所述存储装置的状态下,通过所述执行装置对所述电子设备进行操作;在所述关系规定数据存储于所述存储装置的状态下,通过所述执行装置基于所取得的所述车辆的状态,在所述车辆的特性满足基准的情况下给与比所述车辆的特性不满足基准的情况下的奖励大的奖励;以及在所述关系规定数据存储于所述存储装置的状态下,通过所述执行装置将所取得的所述车辆的状态、在所述电子设备的操作中所使用了的所述行动变量的值以及与该电子设备的操作对应的所述奖励作为向预先确定的更新映射的输入,由此对所述关系规定数据进行更新,所述更新映射输出以使按照所述关系规定数据操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据,所述两个以上的要求要素包括由所述车辆的加速器响应高这一要求要素、所述车辆的振动和噪声中的至少一方小这一要求要素以及能量利用效率高这一要求要素构成的三个要求要素中的至少两个,给与所述奖励包括:相对于在所述喜好变量的值为第1值的情况下所述车辆的特性为预定特性时所给与的所述奖励,对在所述喜好变量的值为第2值的情况下所述车辆的特性为所述预定特性时所给予的奖励进行变更。
在上述方法中,通过算出伴随着电子设备的操作的奖励,能够掌握通过该操作能得到什么样的奖励。并且,基于奖励,通过进行了强化学习的更新映射,对关系规定数据进行更新。由此,能够设定车辆的状态与行动变量的适当的关系。因此,能够在设定车辆的状态与行动变量的适当的关系时,削减对熟练人员要求的工时。
特别是,在上述方法中,根据喜好变量,对奖励的给与方式进行变更。由此,能够通过强化学习对两个以上的要求要素中的、满足相对喜好的关系规定数据进行学习。
例2.根据上述例1所记载的车辆用控制数据的生成方法,所述车辆具备内燃机,由所述喜好变量表示相对喜好的所述两个以上的要求要素包括由所述内燃机的排气中的预定成分的浓度低这一要求要素和所述三个要求要素构成的四个要求要素中的至少两个要求要素来代替所述三个要求要素中的至少两个。
例3.根据上述例1或者例2所述的车辆用控制数据的生成方法,所述生成方法还包括:通过所述执行装置,基于被更新后的所述关系规定数据,将所述车辆的状态与使所述期待收益最大化的所述行动变量的值相关联,由此生成控制用映射数据,所述控制用映射数据将所述车辆的状态作为输入,输出使所述期待收益最大化的所述行动变量的值。
在上述方法中,基于通过强化学习进行了学习的关系规定数据,生成控制用映射数据。能够将该控制用映射数据安装于控制装置。在该情况下,能够基于车辆的状态和行动变量,简单地设定使期待收益最大化的行动变量的值。
例4.一种车辆用控制装置,具备上述例1~例3中的任一项所记载的车辆用控制数据的生成方法中的所述存储装置和所述执行装置,对所述电子设备进行操作包括:基于所述关系规定数据,按照与所述车辆的状态相应的行动变量的值,对所述电子设备进行操作,取得所述喜好变量包括:取得用户对所述至少两个要求要素的相对喜好来作为所述喜好变量。
在上述构成中,基于通过强化学习进行了学习的关系规定数据,设定行动变量的值。基于所设定的行动变量的值,操作电子设备。由此,能够对电子设备进行操作以增大期待收益。
例5.一种车辆用控制系统,具备上述例4所记载的车辆用控制装置中的所述执行装置和所述存储装置,所述执行装置包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置,所述第1执行装置构成为至少执行取得所述车辆的状态和所述喜好变量以及对所述电子设备进行操作,所述第2执行装置构成为至少执行对所述关系规定数据进行更新。
在上述构成中,通过第2执行装置执行对关系规定数据进行更新的更新处理。由此,与第1执行装置执行对关系规定数据进行更新的更新处理的情况相比,能够减轻第1执行装置的运算负荷。
此外,第2执行装置是有别于车载装置的装置意味着第2执行装置不使车载装置。
例6.一种车辆用控制装置,具备上述例5所记载的车辆用控制系统中的所述第1执行装置。
例7.一种车辆用学习装置,具备上述例5所记载的车辆用控制系统中的所述第2执行装置。
例8.一种车辆用控制装置,具备执行上述例1~例3中的任一个所记载的各种处理的执行装置和存储装置。
例9.一种非瞬时性的计算机可读取的存储介质,存储有车辆用控制数据的生成处理,所述生成处理使执行装置执行上述例1~例3中的任一个所记载的各种处理。
附图说明
图1是表示本实施方式涉及的控制装置和驱动系统的图。
图2是表示该实施方式涉及的控制装置执行的处理的步骤的流程图。
图3是表示该实施方式涉及的生成映射数据的系统的图。
图4是表示该实施方式涉及的系统执行的处理的步骤的流程图。
图5是表示该实施方式涉及的学习处理的详细的流程图。
图6是表示该实施方式涉及的映射数据的生成处理的步骤的流程图。
图7是表示本公开的第2实施方式涉及的控制装置和驱动系统的图。
图8是表示该实施方式涉及的控制装置执行的处理的步骤的流程图。
图9是表示本公开的第3实施方式涉及的控制装置执行的处理的步骤的流程图。
图10是表示该实施方式涉及的奖励算出处理的详细的步骤的流程图。
图11是表示该实施方式涉及的更新处理的详细的步骤的流程图。
图12是表示本公开的第4实施方式涉及的系统的结构的图。
图13的(a)部分和(b)部分是表示该实施方式涉及的系统执行的处理的步骤的流程图。
具体实施方式
以下,参照附图对车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置涉及的各实施方式进行说明。
<第1实施方式>
参照图1~图6对第1实施方式进行说明。图1表示本实施方式涉及的车辆VC1的驱动系统和控制装置的结构。
如图1所示,在内燃机10的进气通路12从上游侧开始依次设置有节气门14和燃料喷射阀16,被吸入到进气通路12的空气、从燃料喷射阀16喷射的燃料伴随着进气门18的开门,流入到由气缸20和活塞22区划的燃烧室24。在燃烧室24内,燃料和空气的混合气伴随着点火装置26的火花放电而被供于燃烧,通过燃烧产生的能量经由活塞22被变换为曲轴28的旋转能量。被供于燃烧的混合气伴随着排气门30的开门,被作为排气排出到排气通路32。在排气通路32设置有作为对排气进行净化的后处理装置的催化剂34。
在曲轴28能够经由具备锁止离合器42的转矩转换器40而以机械的方式连结有变速装置50的输入轴52。变速装置50是使变速比为可变的装置,该变速比是输入轴52的转速与输出轴54的转速之比。在输出轴54以机械的方式连结有驱动轮60。
控制装置70将内燃机10作为控制对象,为了对作为其控制量的转矩、排气成分比率等进行控制,对节气门14、燃料喷射阀16以及点火装置26等的内燃机10的操作部进行操作。另外,控制装置70将转矩转换器40作为控制对象,为了对锁止离合器42的接合状态进行控制,对锁止离合器42进行操作。另外,控制装置70将变速装置50作为控制对象,为了对作为其控制量的变速比进行控制,对变速装置50进行操作。此外,在图1中记载了节气门14、燃料喷射阀16、点火装置26、锁止离合器42以及变速装置50各自的操作信号MS1~MS5。
控制装置70为了控制量的控制,对由空气流量计80检测的吸入空气量Ga、由节气门传感器82检测的节气门14的开口度(节气门开口度TA)、曲轴角传感器84的输出信号Scr进行参照。另外,控制装置70对设置于催化剂34的上游的上游侧空燃比传感器86的上游侧检测值Afu、设置于催化剂34的下游侧的下游侧空燃比传感器88的下游侧检测值Afd、由加速器传感器94检测的加速踏板92的踏下量(加速器操作量PA)进行参照。另外,控制装置70对由加速度传感器94检测的车辆VC1的前后方向上的加速度Gx、由车速传感器96检测的车速V进行参照。另外,控制装置70对由麦克风97检测的车室内的噪声强度VN、由振动传感器98检测的车室内的振动强度VV进行参照。另外,CPU72对由喜好选择开关99的操作指示的、作为表示用户的喜好的变量的喜好变量VT的值进行参照。此外,在本实施方式中,喜好变量VT是对由加速器响应高这一要求要素和能量利用效率高这一要求要素构成的两个要求要素中的、用户希望使之相对地优先的一方进行表示的变量。
控制装置70具备CPU72、ROM74、能够电重写的非易失性存储器(存储装置76)以及外围电路78,那些部件设为能够经由局域网络79进行通信。在此,外围电路78包括生成对内部动作进行规定的时钟信号的电路、电源电路、复位电路等。
在ROM74中存储有控制程序74a。另一方面,在存储装置76中存储有映射数据DM。映射数据DM将当前的变速比GR、车速V以及加速器操作量PA的时间序列数据作为输入变量,将作为节气门开口度TA的指令值的节气门开口度指令值TA*和作为变速比GR的指令值的变速比指令值GR*作为输出变量。在此,映射数据DM包括高响应映射数据DM1和高效率映射数据DM2。此外,映射数据是指输入变量的离散的值和与输入变量的值分别对应的输出变量的值的数据组。
图2表示本实施方式涉及的控制装置70执行的处理的步骤。图2所示的处理通过CPU72例如以预定周期反复执行存储于ROM74的程序来实现。此外,以下通过在开头赋予了“S”的数字来表现各处理的步骤编号。
在图2所示的一系列处理中,CPU72首先取得喜好变量VT(S10)。并且,CPU72根据喜好变量VT的值,选择高响应映射数据DM1和高效率映射数据DM2中的一方(S12)。即,CPU72在喜好变量VT的值为加速器响应高这一要求要素的相对的优先级高之意的值的情况下,选择高响应映射数据DM1,与此相对,在并非那样的情况下,选择高效率映射数据DM2。
接着,CPU72取得由加速器操作量PA的6个采样值“PA(1)、PA(2)、……、PA(6)”构成的时间序列数据、当前的变速比GR以及车速V(S14)。在此,构成时间序列数据的各采样值是在互不相同的定时采样的。在本实施方式中,通过以一定采样周期采样的情况下的相互在时间序列上相邻的6个采样值构成时间序列数据。
并且,CPU72使用通过S12的处理选择的映射数据,对节气门开口度指令值TA*和变速比指令值GR*进行映射运算(S16)。在此,映射运算例如设为如下处理即可,该处理为:在输入变量的值与映射数据的输入变量的值中的某一个一致的情况下,将所对应的映射数据的输出变量的值作为运算结果,与此相对,在不一致的情况下,将通过映射数据所包含的多个输出变量的值的内插得到的值作为运算结果。
并且,CPU72通过向节气门14输出操作信号MS1来对节气门开口度TA进行操作,并且,通过向变速装置50输出操作信号MS5来对变速比进行操作(S18)。在此,在本实施方式中,例示将节气门开口度TA反馈控制为节气门开口度指令值TA*。由此,即使节气门开口度指令值TA*为相同的值,操作信号MS1也可能成为互不相同的信号。
此外,CPU72在S18的处理完成的情况下,暂时结束图2所示的一系列处理。
图3表示生成上述映射数据DM的系统。
如图3所示,在本实施方式中,在内燃机10的曲轴28经由转矩转换器40和变速装置50而以机械的方式连结测力计100。并且,使内燃机10进行了工作时的各种各样的状态变量由传感器组102进行检测,检测结果被输入到生成装置110,该生成装置110是生成映射数据DM的计算机。此外,传感器组102包括搭载于图1所示的车辆VC1的传感器等。
生成装置110具备CPU112、ROM114、能够电重写的非易失性存储器(存储装置116)以及外围电路118。那些部件设为能够通过局域网络119进行通信。在此,在存储装置116中存储有关系规定数据DR,该关系规定数据DR是对状态变量与行动变量的关系进行规定的数据。即,关系规定数据DR对作为状态变量的加速器操作量PA的时间序列数据、车速V以及变速比GR与作为行动变量的节气门开口度指令值TA*以及变速比指令值GR*的关系进行规定。另外,在ROM114中存储有用于通过强化学习对关系规定数据DR进行学习的学习程序114a。
图4表示生成装置110执行的处理的步骤。图4所示的处理通过CPU112执行存储于ROM114的学习程序114a来实现。
在图4所示的一系列处理中,CPU112首先设定喜好变量VT的值(S20)。并且,CPU112在使内燃机10进行了工作的状态下,设定加速器操作量PA的时间序列数据、当前的变速比GR、车速V以及喜好变量VT来作为状态s(S22)。在此的时间序列数据是与S14的处理中的数据同样的数据。但是,在图3所示的系统中,不存在加速踏板92。因此,设为通过生成装置110对车辆VC1的状态进行模拟来以虚拟的方式生成了加速器操作量PA,将以虚拟的方式生成的加速器操作量PA视为基于传感器的检测值的车辆的状态。另外,车速V作为假定为了实际存在车辆的情况下的车辆的行驶速度,通过CPU112进行算出。在本实施方式中,将该车速视为基于传感器的检测值的车辆的状态。详细而言,CPU112基于曲轴角传感器84的输出信号Scr,算出曲轴28的转速NE,基于转速NE和变速比GR来算出车速V。
接着,CPU112按照关系规定数据DR确定的策略π,设定与通过S22的处理取得的状态s相应的、由节气门开口度指令值TA*和变速比指令值GR*构成的行动a(S24)。
在本实施方式中,关系规定数据DR是确定行动价值函数Q和策略π的数据。在本实施方式中,行动价值函数Q是对与状态s和行动a的10维的自变量相应的期待收益的值进行表示的表型式的函数。另外,策略π确定如下规则:在提供了状态s时,虽然优先选择自变量成为所提供的状态s的行动价值函数Q中的成为最大的行动a(贪婪行动(greedy action)),但是以预定的概率ε选择除此之外的行动a。
详细而言,本实施方式涉及的行动价值函数Q的自变量可取的值的数量为通过人的见解等削减了状态s和行动a可取的值的全部组合的一部分后的数量。即,例如对于如加速器操作量PA的时间序列数据中的相邻的两个采样值中的一个为加速器操作量PA的最小值、另一个为最大值这样的状况,作为是不可能由人的加速踏板86的操作产生的。由此,对这样的值的组合不定义行动价值函数Q。另外,为了避免变速比GR从2档急剧变化为4档,例如在当前的变速比GR为2档的情况下,将作为可取的行动a的变速比指令值GR*限制为1档、2档以及3档。即,在作为状态s的变速比GR为2档的情况下,不定义4档以上的行动a。在本实施方式中,通过基于人的见解等的维度削减,将定义行动价值函数Q的自变量可取的值限制为10的5次方个以下,更优选限制为10的4次方个以下。
接着,CPU112基于所设定的节气门开口度指令值TA*和变速比指令值GR*,与S18的处理同样地输出操作信号MS1、MS5(S26)。接着,CPU112取得转速NE、变速比GR、内燃机10的转矩Trq、对于内燃机10的转矩指令值Trq*以及加速度Gx(S28)。在此,CPU112基于测力计100生成的负荷转矩和变速比GR来算出转矩Trq。另外,转矩指令值Trq*是根据加速器操作量PA和变速比GR来设定的。此外,在此,变速比指令值GR*为强化学习的行动变量。由此,不限于变速比指令值GR*为使转矩指令值Trq*为能够在内燃机10中实现的最大转矩以下的值,因此,转矩指令值Trq*不限于能够在内燃机10中实现的最大转矩以下的值。另外,CPU112基于测力计100的负荷转矩等,将加速度Gx作为假定地设想为内燃机10等搭载于了车辆的情况下在车辆中产生的值来进行算出。即,在本实施方式中,加速度Gx也是假想的加速度,但关于该加速度Gx,也视为基于传感器的检测值的车辆的状态。
接着,CPU112对从进行了S20的处理的定时和进行了后述的S32的处理的定时中的某一晚的一方起是否经过了预定期间进行判断(S30)。并且,CPU112在判断为经过了预定期间的情况下(S30:是),通过强化学习对行动价值函数Q进行更新(S32)。
图5表示S32的处理的详细。
在图5所示的一系列处理中,CPU112取得由预定期间内的转速NE、转矩指令值Trq*、转矩Trq以及加速度Gx这四个采样值的组构成的时间序列数据、和状态s以及行动a的时间序列数据(S40)。在图5中,括号中的数字不同的变量表示是不同的采样定时的变量的值。例如,转矩指令值Trq*(1)和转矩指令值Trq*(2)的采样定时互不相同。另外,将预定期间内的行动a的时间序列数据作为行动集合Aj,将预定期间内的状态s的时间序列数据定义为状态集合Sj。
接着,CPU112基于转矩Trq和转速NE的时间序列数据,算出内燃机10的效率ηe的时间序列数据和基准效率ηer的时间序列数据(S42)。详细而言,CPU112作为“k=1、2、3、……”,基于通过转矩Trq(k)和转速NE(k)确定的工作点,算出内燃机10的效率ηe(k)和基准效率ηer(k)。在此,效率ηe按内燃机10的各工作点来进行定义。使内燃机10的燃烧室24内的混合气的空燃比为预定值,将在使点火正时为预定正时的情况下产生的燃烧能量中的可作为动力取出的比例作为效率ηe。另外,基准效率ηer按内燃机10的各输出来进行定义。将对在使内燃机10的燃烧室24内的混合气的空燃比为预定值、使点火正时为预定正时的情况下所产生的燃烧能量中的、可作为动力取出的比例的最大值乘以比“1”小的预定系数而得到的值设为基准效率ηer。即,基准效率ηer是对燃烧能量中的可作为动力取出的比例成为最大的工作点的、可作为动力取出的该比例乘以预定系数而得到的值。具体而言,例如在将转矩Trq和转速NE作为输入变量、将效率ηe作为输出变量的映射数据存储于ROM114的状态下,通过CPU112对效率ηe进行映射运算。另外,例如在将作为转矩Trq和转速NE之积的输出作为输入变量、将基准效率ηer作为输出变量的映射数据存储于ROM114的状态下,通过CPU112对基准效率ηer进行映射运算。
接着,CPU112将对累计值乘以系数K而得到的值代入到奖励r(S44),该累计值是从对效率ηe(k)除以基准效率ηer(k)而得到的值减去“1”后的值的累计值。根据该处理,在效率ηe比基准效率ηer大的情况下,奖励r成为比效率ηe小于基准效率ηer的情况下的奖励r大的值。
在此,CPU112使系数K为根据喜好变量VT而可变。详细而言,在喜好变量VT为能量利用效率优先级高之意的值的情况下,将系数K设定为比喜好变量VT表示加速器响应优先级高之意的值的情况下的系数K大的值。该设定是对在能量利用效率的优先级高的情况下给与预定奖励时的效率的基准进行降低的设定。即,在能量利用效率的优先级高的情况下,得到相同奖励时的效率ηe变低。由此,当在能量利用效率的优先级高的情况下选择效率ηe高的工作点时,奖励r被设为比加速器响应的优先级高的情况下的奖励r大的值。
接着,CPU112对预定期间内的任意的转矩Trq与转矩指令值Trq*之差的绝对值为规定量ΔTrq以下这一条件(i)和加速度Gx为下限值GxL以上且上限值GxH以下这一条件(ii)的逻辑积是否为真进行判定(S46)。
在此,CPU112根据预定期间开始时的加速器操作量PA的每单位时间的变化量ΔPA和喜好变量VT的值,以可变的方式设定规定量ΔTrq。即,CPU112在变化量ΔPA的绝对值大的情况下,作为是过渡时,将规定量ΔTrq设定为比是稳态时的情况下的规定量ΔTrq大的值。另外,CPU112在能量利用效率的优先级高的情况下,将规定量ΔTrq设定为比加速器响应优先级高的情况下的规定量ΔTrq大的值。
另外,CPU112根据预定期间开始时的加速器操作量PA的变化量ΔPA,以可变的方式设定下限值GxL。即,CPU112在为过渡时且变化量ΔPA为正的情况下,将下限值GxL设定为比稳态时的下限值GxL大的值。另外,CPU112在为过渡时且变化量ΔPA为负的情况下,将下限值GxL设定为比稳态时的情况下的下限值GxL小的值。
另外,CPU112根据预定期间开始时的加速器操作量PA的每单位时间的变化量ΔPA,以可变的方式设定上限值GxH。即,CPU112在为过渡时且变化量ΔPA为正的情况下,将上限值GxH设定为比稳态时的上限值GxH大的值。另外,CPU112在为过渡时且变化量ΔPA为负的情况下,将上限值GxH设定为比稳态时的上限值GxH小的值。
另外,CPU112根据喜好变量VT以可变的方式设定下限值GxL和上限值GxH。具体而言,CPU112设定下限值GxL和上限值GxH以使得在加速器响应的优先级高的情况下,过渡时的加速度Gx的绝对值成为比能量利用效率的优先级高的情况下该绝对值更大的值。
CPU112在判定为条件(i)与条件(ii)的逻辑积为真的情况下(S46:是),对奖励r加上“K1·n”(S48),另一方面,在判定为逻辑积为假的情况下(S46:否),从奖励r减去“K1·n”(S50)。在此,“n”表示预定期间中的效率ηe的采样数。S46~S50的处理是在满足与加速器响应有关的基准的情况下给与比不满足与加速器响应有关的基准的情况下大的奖励的处理。
CPU112在S48、S50的处理完成的情况下,对是否满足加速器操作量PA的预定期间中的最大值为阈值PAth以上这一条件(iii)进行判定(S52)。在此,CPU112在能量利用效率的优先级高的情况下将阈值Path设定为比加速器响应的优先级高的情况下的阈值PAth大的值。CPU112在判定为满足条件(iii)的情况下(S52:是),从奖励r减去“K2·n”(S54)。即,在加速器操作量PA过度地大的情况下,用户有可能感到转矩不足。在该情况下,为了进行惩罚而给与负的奖励。
CPU112在S54的处理完成的情况下、在S52的处理中作出否定判定的情况下,对存储于图3所示的存储装置76的关系规定数据DR进行更新。在本实施方式中,在关系规定数据DR的更新中使用ε软策略蒙特卡罗方法(ε-soft on-policy Monte Carlo method)。
即,CPU112对由通过上述S50的处理读出的各状态和与各状态对应的行动的组决定的收益R(Sj,Aj)分别加上奖励r(S66)。在此,“R(Sj,Aj)”是对将状态集合Sj的要素中的一个作为状态、并将行动集合Aj的要素中的一个作为行动的收益R进行了总括的记载。接着,关于由通过上述S50的处理读出的各状态和与各状态对应的行动的组确定的各个收益R(Sj,Aj)进行平均化,并代入到所对应的行动价值函数Q(Sj,Aj)(S58)。在此,平均化设为对通过S58的处理算出的收益R除以进行了S58的处理的次数的处理即可。此外,收益R的初始值设为零即可。
接着,CPU112关于通过上述S40的处理读出的状态,分别将如下的行动代入到行动Aj*(S60),该行动是所对应的行动价值函数Q(Sj,A)中的、期待收益成为最大值时的节气门开口度指令值TA*和变速比指令值GR*的组。在此,“A”表示可取的任意的行动。此外,行动Aj*根据通过上述S40的处理读出的状态的种类而成为互不相同的值,但在此,简化标记而在状态的全部种类通过同一标号记载了行动Aj*。
接着,CPU112关于通过上述S40的处理读出的各个状态,对所对应的策略π(Aj|Sj)进行更新(S62)。即,当将行动的总数设为“|A|”时,将通过S60选择的行动Aj*的选择概率设为“(1-ε)+ε/|A|”。另外,将行动Aj*以外的“|A|-1”个行动的选择概率分别设为“ε/|A|”。S62的处理是基于通过S58的处理更新后的行动价值函数Q的处理。由此,对状态s与行动a的关系进行规定的关系规定数据DR被进行更新以使收益R增加。
此外,CPU112在S62的处理完成的情况下,暂时结束图5所示的一系列处理。
返回图4,CPU112当S32的处理完成时,判定行动价值函数Q是否已收敛(S34)。在此,在基于S32的处理的行动价值函数Q的更新量成为预定值以下的连续次数达到预定次数的情况下,判定为行动价值函数Q已收敛即可。CPU112在判定为行动价值函数Q未收敛的情况下(S34:否)、在S30的处理中作出否定判定的情况下,返回S22的处理。与此相对,CPU112在判定为行动价值函数Q已收敛时(S34:是),关于能量利用效率的优先级高的情况和加速器响应的优先级高的情况这两方,判定在S34的处理中是否作出了肯定判定(S36)。
CPU112在关于能量利用效率的优先级高的情况和加速器响应的优先级高的情况中的某一方判定为尚未在S34的处理中作出肯定判定时(S36:否),返回S20的处理,设定喜好变量VT。CPU112在S36的处理中作出肯定判定的情况下,暂时结束图4所示的一系列处理。
图6表示生成装置110执行的处理中的、特别是基于通过图4的处理学习后的行动价值函数Q来生成映射数据DM的处理的步骤。图6所示的处理通过CPU112执行存储于ROM114的学习程序114a来实现。
在图6所示的一系列处理中,CPU112首先设定喜好变量VT的值(S70)。然后,CPU112对成为映射数据DM的输入变量的值的多个状态s中的一个进行选择(S72)。接着,CPU112对与状态s对应的行动价值函数Q(s,A)中的、使行动价值函数Q的值最大的行动a进行选择(S74)。即,在此通过贪婪策略选择行动a。接着,CPU112使状态s和行动a的组存储于存储装置116(S76)。
接着,CPU112判定作为映射数据DM的输入变量的值的全部状态s是否被通过S72的处理进行了选择(S78)。并且,CPU112在判定为存在未被选择的状态s的情况下(S78:否),返回S72的处理。与此相对,CPU112在判定为全部状态s被选择了的情况下(S78:是),判定是否通过S70的处理设定了作为喜好变量VT的值可取的全部值(S80)。CPU112在判定为存在作为喜好变量VT的值而尚未设定的值的情况下(S80:否),返回S70的处理,设定尚未设定的喜好变量VT的值。
与此相对,CPU112在判定为已设定喜好变量VT的全部值的情况下(S80:是),生成高响应映射数据DM1和高效率映射数据DM2(S82)。在此,基于作为行动价值函数Q的输入的状态所包含的喜好变量VT的值为加速器响应的优先级高之意的值,生成高响应映射数据DM1。另外,基于作为行动价值函数Q的输入的状态所包含的喜好变量VT的值为能量利用效率的优先级高之意的值,生成高效率映射数据DM2。
此外,CPU112在S82的处理完成的情况下,暂时结束图6所示的一系列处理。
在此,对本实施方式的作用和效果进行说明。
在图3所示的系统中,CPU112通过强化学习对行动价值函数Q进行学习。并且设为:在行动价值函数Q的值收敛的情况下,在满足关于能量利用效率要求的基准和关于加速器响应要求的基准上进行了适当的行动的学习。并且,CPU112关于成为映射数据DM的输入变量的各个状态,选择使行动价值函数Q最大化的行动,将状态和行动的组存储于存储装置116。接着,CPU112基于存储于存储装置116的状态和行动的组,生成映射数据DM。由此,能够不过度地增大熟练人员的工时地设定与加速器操作量PA、车速V以及变速比GR相应的适当的节气门开口度指令值TA*和变速比指令值GR*。
特别是,在本实施方式中,根据加速器响应高和能量利用效率高这两个要求要素中的哪个优先级高,分别对与状态s相应的行动a进行了学习。详细而言,在状态s中的喜好变量VT的值为能量利用效率的优先级高之意的值的情况下,缓和对于加速器响应的基准,另一方面,给与了奖励以使得效率ηe变高的一方成为有利。由此,即使相对地降低加速器响应,也能够通过满足S46的上述条件(i)和条件(ii)来给与通过S48的处理获得的奖励,并且,尽量提高效率ηe在增大总计的奖励上成为有利。因此,能够使高效率映射数据DM2为能够实现能量利用效率变高的控制的数据。
另一方面,在状态s中的喜好变量VT的值为加速器响应高之意的值的情况下,虽然提高了效率ηe,但通过S44的处理得到的奖励变小。由此,在增大总计的奖励上,通过满足S46的上述条件(i)和条件(ii)来给与通过S48的处理获得的奖励成为有利。因此,能够使高响应映射数据DM1为能够实现对于用户的加速器操作的响应性良好的控制的数据。
根据以上说明的本实施方式,还能得到以下记载的效果。
(1)在控制装置70具备的存储装置76存储有映射数据DM,而不是行动价值函数Q等。由此,CPU72基于使用了映射数据DM的映射运算,设定节气门开口度指令值TA*和变速比指令值GR*。由此,例如与执行对行动价值函数Q中的成为最大值的行动价值函数Q进行选择的处理的情况相比,能够减少运算负荷。
(2)行动价值函数Q的自变量包含了加速器操作量PA的时间序列数据。由此,例如与关于加速器操作量PA而仅将单一采样值作为自变量的情况相比,能够对于加速器操作量PA的各种各样的变化,精细地对行动a的值进行调整。
(3)行动价值函数Q的自变量包含了节气门开口度指令值TA*自身。由此,例如与将对节气门开口度指令值TA*的行为进行了模型化后的模型式的参数等作为与节气门开口度有关的自变量的情况相比,容易提高基于强化学习的搜索的自由度。
<第2实施方式>
以下,以与第1实施方式的不同点为中心,参照图7和图8对第2实施方式进行说明。
图7表示本实施方式涉及的车辆VC1的驱动系统和控制装置。此外,在图7中,关于与图1所示的部件对应的部件,为了便于说明,赋予了同一标号。
如图7所示,在本实施方式中,除了控制程序74a之外,在ROM74中还存储有学习程序74b。另外,在存储装置76未存储有映射数据DM,取而代之,存储有关系规定数据DR,另外,存储有转矩输出映射数据DT。在此,关系规定数据DR是通过图4的处理进行了学习的已学习的数据,是将状态s设为加速器操作量PA的时间序列数据、车速V以及变速比GR、并将行动a设为节气门开口度指令值TA*和变速比指令值GR*的数据。另外,通过转矩输出映射数据DT规定的转矩输出映射是与将转速NE、充填效率η以及点火正时作为输入、并输出转矩Trq的神经网络等的已学习模型有关的数据。此外,上述转矩输出映射数据DT设为例如通过执行图4的处理时将通过S28的处理取得的转矩Trq作为教师数据来被进行学习即可。另外,充填效率η通过CPU72根据转速NE和吸入空气量Ga来算出。
图8表示本实施方式涉及的控制装置70执行的处理的步骤。图8所示的处理通过CPU72例如以预定周期反复执行存储于ROM74的控制程序74a和学习程序74b来实现。此外,在图8中,关于与图4所示的处理对应的处理,为了便于说明,赋予同一步骤编号。
在图8所示的一系列处理中,CPU72首先取得喜好变量VT的值(S20a)。接着,CPU72取得加速器操作量PA的时间序列数据、当前的变速比GR、车速V以及喜好变量VT来作为状态s(S22a)。然后,CPU72执行图4的S24~S32的处理。此外,CPU72在S30的处理中作出否定判定的情况下、完成S32的处理的情况下,暂时结束图8所示的一系列处理。此外,S20a、S22a、S24~S30的处理通过CPU72执行控制程序74a来实现,S32的处理通过CPU72执行学习程序74b来实现。
这样,根据本实施方式,通过在控制装置70安装关系规定数据DR和学习程序74b,与第1实施方式的情况相比,能够使学习频度提高。
<第3实施方式>
以下,以与第2实施方式的不同点为中心,参照图9~图11对第3实施方式进行说明。
在本实施方式中,使用策略坡度法来作为强化学习。
另外,在本实施方式中,能够通过喜好选择开关99的操作,对由加速器响应高这一要求要素、能量利用效率高这一要求要素、对于车室内的状态的要求要素、对于排气特性的要求要素构成的合计四个要求要素的相对喜好进行指示。详细而言,能够将合计“10”分分配给四个要求要素。即,例如用户能够对加速器响应高这一要求要素、能量利用效率高这一要求要素、对于车室内的状态的要求要素以及对于排气特性的要求要素依次赋予“4、3、2、1”的分数。在该情况下,意味着喜好的程度按加速器响应高这一要求要素、能量利用效率高这一要求要素、对于车室内的状态的要求要素以及对于排气特性的要求要素的顺序降低。另外,例如用户能够对加速器响应高这一要求要素、能量利用效率高这一要求要素、对于车室内的状态的要求要素以及对于排气特性的要求要素依次赋予“7、1、1、1”的分数。在该情况下,意味着被赋予的分数大的加速器响应高这一要求要素是比其他三个要求要素更被喜好的要素。
图9表示本实施方式涉及的控制装置70执行的处理的步骤。图9所示的处理通过CPU72例如以预定周期反复执行存储于ROM74的控制程序74a和学习程序74b来实现。
在图9所示的一系列处理中,CPU72当S20a的处理完成时,取得加速器操作量PA、转速NE、充填效率η、下游侧检测值Afd的时间序列数据和变速比GR、车速V以及喜好变量VT来作为状态s(S22b)。在本实施方式中,使加速器操作量PA、转速NE、充填效率η以及下游侧检测值Afd为以等间隔采样到的6个值。
并且,CPU72将状态s代入到确定策略π的函数近似器的输入变量(S90)。详细而言,CPU72作为“i=1~6”,将加速器操作量PA(i)代入到输入变量x(i),将转速NE(i)代入输入变量x(6+i)。将充填效率η(i)代入到输入变量x(12+i),将下游侧检测值Afd代入到输入变量x(18+i)。另外,CPU72将车速V代入到输入变量x(25),将变速比GR代入到输入变量x(26),将喜好变量VT代入到输入变量x(27)。
并且,CPU72将输入变量x(1)~s(27)代入到确定策略的函数近似器(S92)。在本实施方式中,使策略π为对确定行动的各变量可取的概率进行确定的多变量高斯分布。在此,多变量高斯分布的平均值μ(1)表示节气门开口度指令值TA*的平均值,平均值μ(2)表示变速比指令值GR*的平均值。平均值μ(3)表示延迟量aop的平均值,平均值μ(4)表示基础喷射量Qbse的平均值。平均值μ(5)表示上游侧目标值Afu*的平均值。
在此,延迟量aop是相对于预先确定的基准点火正时的延迟量,基准点火正时是MBT点火正时和爆震极限点中的延迟侧的正时。MBT点火正时是能得到最大转矩的点火正时(最大转矩点火正时)。另外,爆震极限点在使用爆震极限高的高辛烷值燃料时在所设想的最佳的条件下能够使爆震落在能容许的等级以内的点火正时的提前极限值。另外,上游侧目标值Afu*是对上游侧检测值Afu进行反馈控制时的目标值。
另外,在本实施方式中,使多变量高斯分布的协方差矩阵为对角矩阵,与各平均值μ(i)对应的方差σ(i)设为能够成为互不相同的值。
在本实施方式中,平均值μ(i)由神经网络构成。在该神经网络中,中间层的层数为“p-1”个,并且,各中间层的激活函数h1~hp-1为双曲正切,输出层的激活函数hp为ReLU。在此,ReLU是对输入和“0”中的不小的一方进行输出的函数。另外,当设为m=2、3、……、p时,第“m-1”的中间层的各节点的值通过向激活函数hm输入由系数w(m)规定的线形映射的输出来生成。在此,n1、n2、……、np-1分别是第1、第2、……、第p-1的中间层的节点数。例如,第1中间层的各节点的值通过将对由系数w(1)ji(j=0~n1,i=0~27)规定的线性映射输入了上述输入变量x(1)~x(27)时的输出输入到激活函数h1来生成。此外,w(1)j0等为偏置参数,输入变量x(0)定义为“1”。
上述神经网络是将激活函数hp的5个输出分别设为平均值μ(i)的神经网络。
另外,在本实施方式中,函数f的值设为方差σ(i),该函数f的值是将通过由系数wTik(i=1~3,k=1~27)规定的线性映射对输入变量x(1)~x(27)进行了线性变换而得到的值分别输入到了函数f时的函数f的值。在本实施方式中,例示ReLU来作为函数f。
接着,CPU72基于由通过S92的处理算出的平均值μ(i)和方差σ(i)定义的策略π来决定行动a(S94)。在此,选择平均值μ(i)的概率最高。并且,在方差σ(i)小的情况下,选择平均值μ(i)的概率比方差σ(i)大的情况下的该概率大。
并且,CPU72向节气门14输出操作信号MS1,向燃料喷射阀16输出操作信号MS2。进一步,CPU72向点火装置26输出操作信号MS3,向变速装置50输出操作信号MS5(S26a)。详细而言,CPU72为了将点火正时控制为通过爆震控制对基准点火正时被进行了延迟量aop的延迟后的值进行反馈修正而得到的值,输出操作信号MS3。在此,基准点火正时通过CPU72根据曲轴28的转速NE和充填效率η来被以可变的方式进行设定。此外,通过CPU72基于转速NE和吸入空气量Ga来算出充填效率η。另外,CPU72基于通过反馈修正系数对基础喷射量Qbse进行了修正后的值,输出操作信号MS2,该反馈修正系数是用于将上游侧检测值Afu反馈控制为上游侧目标值Afu*的操作量。
并且,CPU72执行奖励算出处理(S96),执行更新处理(S98),暂时结束图9所示的一系列处理。
图10表示S96的处理的详细。
在图10所示的一系列处理中,在行动a和状态s之外,CPU72还取得转速NE、转矩指令值Trq*、转矩Trq、加速度Gx以及下游侧检测值Afd(S40a)。
接着,CPU72基于转矩Trq和转速NE来算出效率ηe和基准效率ηer(S42a)。在本实施方式中,将基于延迟量aop和上游侧目标值Afu*对根据工作点算出的效率的基础值进行了修正后的值作为效率ηe。并且,CPU72将对如下值乘以系数K而得到的值作为奖励r(S44a),该值是从对效率ηe除以基准效率ηer而得到的值减去了“1”后的值。在此,CPU72根据喜好变量VT以可变的方式设定系数K。详细而言,在本实施方式中,鉴于对能量利用效率高这一要求要素赋予的分数为“1~7”,将互不相同的“7”个值中的某一个设定为系数K。在此,在所赋予的分数为“7”的情况下,系数K的值也成为最大。
接着,CPU72执行S46的处理。但是,在本实施方式中,鉴于对加速器响应高这一要求要素赋予的分数为“1~7”,将确定条件(i)和条件(ii)的规定量ΔTrq、下限值GxL以及上限值GxH各自的大小设定为7个大小中的某一个。在此,在对加速器响应高这一要求要素赋予的分数为“7”的情况下,规定量ΔTrq成为最小。
CPU72在判定为条件(i)和条件(ii)的逻辑积为真的情况下(S46:是),对奖励r加上预定值Δr1(S48a)。另一方面,在判定为逻辑积是假的情况下(S46:否),从奖励r减去预定值Δr1(S50a)。
CPU72在S48a、S50a的处理完成的情况下,对噪声强度VN为预定值VNth以下这一条件(iv)和振动强度VV为预定值VVth以下这一条件(v)的逻辑积是否为真进行判定(S100)。CPU72根据喜好变量VT的值,以可变的方式设定预定值VNth以及VVth。详细而言,在本实施方式中,鉴于对车室内的状态满足基准这一要求要素赋予的分数为“1~7”,将预定值VNth、VVth各自的大小设定为7个大小中的某一个。
CPU72在判定为条件(iv)和条件(v)的逻辑积为真的情况下(S100:是),对奖励r加上预定值Δr2(S102)。另一方面,在判定为条件(iv)和条件(v)的逻辑积为假的情况下(S100:否),从奖励r减去预定值Δr2(S104)。
S100~S104的处理是在车室内的状态满足基准的情况下给与比车室内的状态不满足基准的情况下大的奖励的处理。
CPU72在完成S102、S104的处理的情况下,对是否满足下游侧检测值Afd为浓侧阈值AfdR以上且稀侧阈值AfdL以下这一条件(vi)进行判定(S106)。在此,CPU72根据喜好变量VT的值以可变的方式设定浓侧阈值AfdR和稀侧阈值AfdL。详细而言,在本实施方式中,鉴于对与排气特性有关的要求要素赋予的分数为“1~7”,将浓侧阈值AfdR和稀侧阈值AfdL各自的大小设定为7个大小中的某一个。此外,在对与排气特性有关的要求要素赋予的分数为最低值的“1”的情况下,浓侧阈值AfdR成为7个大小的大小中的最低值,稀侧阈值AfdL成为最高值。但是,即使是在该情况下,浓侧阈值AfdR和稀侧阈值AfdL的大小也被设定为以使得满足与排气有关的限制。
CPU72在判定为满足条件(vi)的情况下(S106:是),对奖励r加上预定值Δr3(S108)。另一方面,在判定为不满足条件(vi)的情况下(S106:否),从奖励r减去预定值Δr3(S110)。
此外,CPU72在S108、S110的处理完成的情况下,暂时结束图10所示的一系列处理。
图11表示更新处理S98的详细。
如图11所示,CPU72首先对收益R加上奖励r(S112)。并且,CPU72判定变量t是否达到了预定时间T-1(S114)。CPU72在判定为变量t未达到预定时间T-1的情况下(S114:否),对变量t进行增加(increment)(S116)。
与此相对,CPU72在判定为变量t达到预定时间T-1的情况下(S114:是),将收益R代入到收益Ri之后,对收益R进行初始化,进一步,对变量t进行初始化(S118)。接着,CPU72判定变量i是否达到了预定值N(S120)。并且,CPU72在判定为变量i未达到预定值N的情况下(S120:否),对变量i进行增加(S122)。
与此相对,CPU72在判定为变量i达到预定值N的情况下(S122:是),通过策略坡度法对规定策略π的变量w(1)~w(p)、系数wT进行更新(S126)。在图11中,对规定策略π的变量w(1)~w(p)、系数wT进行总括而记载为参数θ。
在此,将变量t成为0~T-1的期间中的状态s、行动a以及奖励r的T个组作为轨迹ht。将概率pθ(ht)设为按照由参数θ规定的策略π而成为轨迹ht的概率pθ(ht)。在此,基于“pθ(ht)·Rt”的轨迹ht的积分值是收益R(ht)的期待值(期待收益J),对参数θ进行更新以使该积分值最大化。参数θ的更新能够通过使参数θ的各成分的更新量为与通过该成分对上述期待收益J进行偏微分而得到的值成比例的量来实现。
在此,当使用状态s0、s1、……、sT、行动a0、a1、……、aT时,概率pθ(ht)成为:
pθ(ht)
=p(s0)·p(s1|s0,a0)·π(a0|s0)·p(s2|s1,a1)·π(a1|s1)……p(sT|sT-1,aT-1)·π(aT-1|sT-1)。
其中,初始概率p(s0)为成为状态s0的概率,转变概率p(st+1|st,at)为在状态st、行动at时从状态st转变为状态st+1的概率。
因此,期待收益J的偏微分成为下述的式(c1)。
Figure BDA0002885014220000231
在此,无法知道概率pθ(ht)。由此,将上述的式(c1)的积分置换为基于多个(在此为预定值N个)轨迹ht的平均值。
由此,基于期待收益J的参数θ的各成分的偏微分为如下值,该值是对预定值N个的收益Ri加上关于策略π(at|st)的对数的、参数θ的相应的成分的偏微分系数的“t=0~T-1”时的和与收益Ri之积,然后除以预定值N而得到的值。
并且,CPU72将对基于参数θ的各成分的期待收益J的偏微分系数乘以学习率α而得到的值作为参数θ中的相应的成分的更新量。
CPU72在S126的处理完成的情况下,对变量i和收益R1~RN进行初始化(S128)。
此外,CPU72在S128的处理完成的情况下、在S114、S120的处理中作出否定判定的情况下,暂时结束图11所示的一系列处理。此外,图11所示的处理通过执行存储于ROM74的学习程序74b中的将状态s0、s1、……、行动a0、a1、……、以及奖励r作为输入、并输出被更新后的参数θ的更新映射的执行指令来实现。
在此,对本实施方式的作用和效果进行说明。
CPU72从由能量利用效率高这一要求要素、加速器响应高这一要求要素、与车室内的状态有关的要求要素以及与排气特性有关的要求要素构成的四个要求要素各自的观点出发,算出奖励r。使那时的奖励r的算出的方式为根据喜好变量VT的值而可变。这些四个要求要素具有可能相互背反的一面。由此,通过根据喜好变量VT的值来对奖励r的给与方法进行变更,能够设定奖励r的算出处理,以使得提高奖励r来满足优先级高的要求要素成为有利。因此,能够实现处于关于由喜好变量VT的值表示的四个要求要素的相对喜好的控制。
根据以上说明的本实施方式,还能获得以下记载的效果。
(4)CPU72基于加速器操作量PA、转速NE、充填效率η以及下游侧检测值Afd的时间序列数据和变速比GR、车速V以及喜好变量VT,按照策略π来设定节气门开口度指令值TA*、变速比指令值GR*、延迟量aop、基础喷射量Qbse以及上游侧目标值Afu*。在此,在过渡时,只是将作为开环操作量的基础喷射量Qbse设为与充填效率η成比例的值,上游侧检测值Afu、下游侧检测值Afd有可能从浓侧阈值AfdR与稀侧阈值AfdL之间脱离。并且,对于如何设定基础喷射量Qbse即可,在通过熟练人员的反复尝试进行适配的情况下,对熟练人员所要求的工时会变多。与此相对,在本实施方式中,通过强化学习对作为开环控制的喷射量的基础喷射量Qbse进行学习。由此,能够有效地削减为了设定用于过渡时的空燃比控制的开环控制的喷射量而对熟练人员所要求的工时。
(5)设为了能够通过喜好变量VT来表现四个要求要素的相对的重要度。由此,能够通过喜好变量VT来更精细地表现用户的喜好。
(6)在关系规定数据DR使用函数近似器。由此,即使状态、行动是连续变量,也能够容易地对关系规定数据DR进行处理。
<第4实施方式>
以下,以与第3实施方式的不同点为中心,参照图12和图13对第4实施方式进行说明。
在本实施方式中,在车辆VC1外执行关系规定数据DR的更新。
图12表示在本实施方式中执行强化学习的控制系统的结构。此外,在图12中,关于与图7所示的部件对应的部件,为了便于说明,赋予了同一标号。
图12所示的车辆VC1内的控制装置70中的ROM74存储有控制程序74a,但未存储学习程序74b。另外,控制装置70具备通信机77。通信机77是用于经由车辆VC1的外部的网络120与数据解析中心130进行通信的设备。
数据解析中心130对从多个车辆VC1、VC2、……发送的数据进行解析。数据解析中心130具备CPU132、ROM134、能够电重写的非易失性存储器(存储装置136)、外围电路138以及通信机137。那些部件设为能够通过局域网络139进行通信。在ROM134中存储有学习程序134a,在存储装置136中存储有关系规定数据DR。
图13表示本实施方式涉及的强化学习的处理步骤。图13的(a)部分所示的处理通过CPU72执行存储于图12所示的ROM74的控制程序74a来实现。另外,图13的(b)部分所示的处理通过CPU132执行存储于ROM134的学习程序134a来实现。此外,在图13中,关于与图9所示的处理对应的处理,为了便于说明,赋予了同一步骤编号。以下,沿着强化学习的时间序列,对图13所示的处理进行说明。
在图13的(a)部分所示的一系列处理中,CPU72通过执行S20a、S22b、S90~S94、S26a的处理,对通信机77进行操作,发送关系规定数据DR的更新处理所需要的数据(S130)。在此,被作为发送对象的数据包括状态s、行动a、转矩指令值Trq*、转矩Trq、加速度Gx、下游侧检测值Afd、噪声强度VN、振动强度VV以及喜好变量VT。
与此相对,如图13的(b)部分所示,CPU132接收被发送来的数据(S140),基于所接收到的数据来执行S96、S98的处理。并且,CPU132对关系规定数据DR的更新次数是否为预定次数以上进行判定(S142),在判定为更新次数是预定次数以上的情况下(S142:是),对通信机137进行操作,向发送了通过S140的处理在数据解析中心130中接收到的数据的车辆VC1发送关系规定数据DR(S144)。此外,CPU132在完成S144的处理的情况下、在S142的处理中作出否定判定的情况下,暂时结束图13的(b)部分所示的一系列处理。
与此相对,如图13的(a)部分所示,CPU72对是否存在更新数据进行判定(S132),在判定为存在更新数据的情况下(S132:是),接收被更新后的关系规定数据DR(S134)。并且,CPU72将在S94的处理中所利用的关系规定数据DR重写为所接收到的关系规定数据DR(S136)。此外,CPU72在完成S136的处理的情况下、在S132的处理中作出否定判定的情况下,暂时结束图13的(a)部分所示的一系列处理。
这样,根据本实施方式,在车辆VC1的外部进行关系规定数据DR的更新处理。由此,能够减轻控制装置70的运算负荷。进一步,例如若是在S140的处理中通过数据解析中心130接收来自多个车辆VC1、VC2的数据来进行S98的处理,则能够容易地增大学习中使用的数据数量。
<对应关系>
上述实施方式中的事项与上述“发明内容”一栏所记载的事项的对应关系为如下所述。以下,按“发明内容”一栏所记载的例子的编号表示了对应关系。
[1]、[2]执行装置和存储装置在图7中分别对应于CPU72以及ROM74和存储装置76,在图3中分别对应于CPU112以及ROM114和存储装置116,在图12中对应于CPU72、132以及ROM74、134和存储装置76、136。
取得车辆的状态和喜好变量的取得处理对应于图4的S22、S28的处理、图8的S22a、S28的处理、图9和图10的S22b、S40a的处理。
对电子设备进行操作的操作处理对应于S26、S26a的处理。
给与奖励的奖励算出处理对应于S42~S54的处理、S96的处理。
对关系规定数据进行更新的更新处理对应于S56~S62的处理、S98的处理。
更新映射对应于通过学习程序74b中的执行S56~S62的处理、S98的处理的指令规定的映射。
对奖励进行变更的变更处理对应于在S44的处理中系数K设为根据喜好变量VT而可变、在S46的处理中条件(i)和条件(ii)设为根据喜好变量VT而可变、在S52的处理中阈值Path设为根据喜好变量VT而可变。
另外,变更处理对应于在S100的处理中条件(iv)和条件(v)设为根据喜好变量VT而可变、在S106的处理中条件(vi)设为根据喜好变量VT而可变。
[3]控制用映射数据对应于映射数据DM。
[4]执行装置对应于图7中的CPU72以及ROM74,存储装置对应于图7中的存储装置76。
[5]~[7]第1执行装置对应于CPU72以及ROM74,第2执行装置对应于CPU132以及ROM134。
<其他实施方式>
此外,本实施方式能够如以下那样进行变更来实施。本实施方式和以下的变更例能够在技术上不矛盾的范围内相互组合来实施。
“关于喜好变量”
·在将喜好变量VT设为对关于互不相同的两个要求要素的喜好的排位进行表示、但不表现该喜好的差异的大小的变量的情况下,不限于对与能量利用效率高这一要求要素和加速器响应高这一要求要素的合计两个要求要素有关的喜好的排位进行表示的变量为喜好变量。例如,对由能量利用效率高这一要求要素、加速器响应高这一要求要素、与车室内的状态有关的要求要素以及与排气特性有关的要求要素构成的合计4个要求要素中的任意的两个要求要素的喜好的排位进行表示的变量可以为喜好变量。另外,例如对4个要求要素中的任意的3个要求要素的喜好的排位进行表示的变量也可以为喜好变量,进一步,例如可以是对4个要求要素的喜好的排位进行表示的变量。
·在将喜好变量VT设为能够对关于几个要求要素中的2个要求要素的喜好的差异的大小进行表现的变量的情况下,对关于由能量利用效率高这一要求要素、加速器响应高这一要求要素、与车室内的状态有关的要求要素以及与排气特性有关的要求要素构成的合计4个要求要素的喜好进行表示的变量为喜好变量并不是必须的。例如,关于4个要求要素中的任意的3个,能够对喜好的差异的大小进行表现的变量也可以为喜好变量,另外,例如关于任意的两个,能够对喜好的差异的大小进行表现的变量也可以为喜好变量。进一步,对全部要求要素分配的合计的分数为“10”也不是必须的。
·作为与车室内的状态有关的要求要素,不限于噪声强度低这一要求要素、振动强度低这一要求要素。例如,也可以将车室内的温度处于预定范围内这一要求要素作为与车室内的状态有关的要求要素,或者包括该要素。
“关于变更处理”
·在S46的处理中,使条件(i)和条件(ii)为根据喜好变量VT的值而可变,但不限于此。例如,也可以使图10的S48a、S50a的处理中的系数K1、图10的S48a、S50a的处理中的预定值Δr1为根据喜好变量VT的值而可变。即,例如在喜好变量VT的值为喜好能量利用效率高之意的要求要素的值的情况下,若减小图5的S48、S50的系数K1,则满足条件(i)和条件(ii)在增大总计的奖励上并不那么有利。由此,容易进行提高效率ηe的学习。
·在图5的S52的处理中,使条件(iii)为根据喜好变量VT的值而可变,但不限于此。例如,也可以使S54的处理中的系数K2为根据喜好变量VT的值而可变。即,例如在喜好变量VT的值为喜好能量利用效率高之意要求要素的值的情况下,减小系数K2。在该情况下,在S52的处理作出否定判定在增大总计的奖励上并不那么有利。由此,容易进行提高效率ηe的学习。
·不限于仅执行如图5的S46、S52的处理那样变更与加速器响应有关的基准((i)(ii)(iii))的处理、和如上述变更例那样对与是否满足关于加速器响应的基准相应的奖励(K1;Δr1,K2)进行变更的处理中的某一方,例如也可以执行这两方。
·在图5中,在喜好变量VT的值为喜好加速器响应高之意的要求要素的值的情况下,减小系数K,并且,使条件(i)~条件(iii)变得严格,但不限于此。例如,也可以仅是减小系数K。由此,提高效率ηe在给与大的奖励上也不是好办法。由此,提高加速器响应的行动容易成为贪婪行动。
·例如在图5的处理中设为:当喜好变量VT的值为喜好能量利用效率高之意的要求要素的值时,不执行在加速器响应满足基准的情况下给与比加速器响应不满足基准的情况下大的奖励的处理。也可以由此构成变更处理。
·在图10的S100的处理中,使条件(iv)和条件(v)为根据喜好变量VT的值而可变,但不限于此。例如,也可以使S102、S104的处理中的预定值Δr2为根据喜好变量VT的值而可变。即,例如在喜好变量VT的值表示与车室内的状态有关的要求要素的喜好的程度高的情况下,增大预定值Δr2。在该情况下,在S100的处理中作出肯定判定在增大总计的奖励上成为有利。由此,对噪声、振动进行抑制的行动a容易成为贪婪行动。
·在图10的S106的处理中,使条件(vi)为根据喜好变量VT而可变,但不限于此。例如,也可以使S108、S110的处理中的预定值Δr3为根据喜好变量VT的值而可变。
·不限于仅执行如图10的S100的处理那样对与车室内的状态有关的基准(VNth、VVth)进行变更的处理、和如上述变更例那样对与是否满足关于车室内的状态的基准相应的奖励(Δr2)进行变更的处理中的某一方,也可以执行这两方。
·不限于仅执行如图10的S106的处理那样对与排气特性有关的基准(AfdR,AfdL)进行变更的处理、和如上述变更例那样对与是否满足关于排气特性的基准相应的奖励(Δr3)进行变更的处理中的某一方,也可以执行这两方。
·在图10的处理中,关于四个要求要素的全部要素,根据喜好变量VT对条件或者奖励进行了变更。但是,不限于此,例如也可以使4个要求要素中的3个为根据喜好变量VT而可变。
“关于表形式的数据的维度削减”
·作为表形式的数据的维度削减方法,不限于在上述实施方式中例示的方法。例如加速器操作量PA很少会成为最大值。因此,关于加速器操作量PA成为规定量以上的状态,也可以不定义行动价值函数Q,对加速器操作量PA成为规定量以上的情况下的节气门开口度指令值TA*等另外进行适配。另外,例如也可以通过从行动可取的值去掉节气门开口度指令值TA*成为规定值以上的值等来进行维度削减。
“关于关系规定数据”
·在上述实施方式中将行动价值函数Q设为了表形式的函数,但不限于此。例如,也可以使用函数近似器。
·在上述实施方式中,表现策略的函数近似器的自变量包含了喜好变量VT,但不限于此。例如,也可以按喜好变量VT的值来设置互不相同的函数近似器。
“关于操作处理”
·例如如上述“关于关系规定数据”一栏所记载的那样,在将行动价值函数作为函数近似器的情况下,将关于上述实施方式中的表型式的函数的成为自变量的行动的离散的值的全部组与状态s一起输入到行动价值函数Q。由此,确定使行动价值函数Q最大化的行动a即可。在该情况下,例如在主要将所确定的行动a采用于操作的同时,以预定概率选择那以外的行动即可。
“关于更新映射”
·在图5的S56~S62的处理中,例示了基于ε软策略蒙特卡罗方法的处理,但不限于此。例如,也可以是基于离策略蒙特卡罗法(off-policy Monte Carlo method)的。当然,不限于蒙特卡罗法,例如也可以使用离策略TD法(off-policy TD method),另外,例如也可以如SARSA法那样使用在策略TD法(on-policy TD method),另外,例如也可以使用资格迹法(eligibility trace method)来作为在策略的学习。
·例如如上述“关于关系规定数据”一栏所记载的那样,在使用函数近似器来表现策略π、基于奖励r直接对其进行更新的情况下,使用策略梯度法等来构成更新映射即可。
·不限于仅将行动价值函数Q和策略π中的某一方作为基于奖励r的直接的更新对象。例如,也可以如Actor-Critic法那样分别对行动价值函数Q和策略π进行更新。另外,在Actor-Critic法中,不限于分别对行动价值函数Q和策略π进行更新,例如也可以代替行动价值函数Q而将价值函数V作为更新对象。
“关于行动变量”
·在上述实施方式中,作为与作为行动变量的节气门的开口度有关的变量,例示了节气门开口度指令值TA*,但不限于此。例如,也可以用无用时间和二阶滞后滤波器表现节气门开口度指令值TA*对于加速器操作量PA的响应性,将无用时间、规定二阶滞后滤波器的两个变量的合计三个变量作为与节气门的开口度有关的变量。但是,在该情况下,对于状态变量,优选代替加速器操作量PA的时间序列数据而设为加速器操作量PA的每单位时间的变化量。
·如下述“关于内燃机”一栏所记载的那样,在为压缩着火式的内燃机的情况下,使用与喷射量有关的变量作为行动变量来代替与节气门的开口度有关的变量即可。另外,也可以在此基础上,例如使用与喷射正时有关的变量和与一个燃烧周期中的喷射次数有关的变量来作为行动变量。进一步,也可以使用与用于一个燃烧周期中的一个气缸的在时间序列上相邻的2个燃料喷射中的一方的结束定时与另一方的开始定时之间的时间间隔有关的变量来作为行动变量。
·例如也可以在变速装置50为有级变速装置的情况下,将用于通过油压对离合器的接合状态进行调整的电磁阀的电流值等作为行动变量。
·如下述“关于电子设备”一栏所记载的那样,在与行动变量相应的操作的对象包括旋转电机的情况下,行动变量包括旋转电机的转矩、电流即可。即,作为与推力生成装置的负荷有关的变量即负荷变量,不限于与节气门的开口度有关的变量、喷射量,也可以是旋转电机的转矩、电流。
·如下述“关于电子设备”一栏所记载的那样,在与行动变量相应的操作的对象包括锁止离合器42的情况下,行动变量包括表示锁止离合器42的接合状态的变量即可。
“关于状态”
·在上述实施方式中,将加速器操作量PA的时间序列数据设为了由等间隔地采样到的6个值构成的数据,但不限于此。加速器操作量PA的时间序列数据是由互不相同的采样定时的2个以上的采样值构成的数据即可,此时,更优选是由3个以上的采样值构成的数据、采样间隔为等间隔的数据。
·作为与加速器操作量有关的状态变量,不限于加速器操作量PA的时间序列数据,例如也可以如“关于行动变量”一栏所记载的那样为加速器操作量PA的每单位时间的变化量等。
·在上述实施方式中,将转速NE的时间序列数据设为了由以等间隔采样到的6个值构成的数据,但不限于此。转速NE的时间序列数据为由互不相同的采样定时的2个以上的采样值构成的数据即可,此时,更优选是由3个以上的采样值构成的数据、采样间隔为等间隔的数据。
·在上述实施方式中,将充填效率η的时间序列数据设为了由以等间隔采样到的6个值构成的数据,但不限于此。充填效率η的时间序列数据为由互不相同的采样定时的2个以上的采样值构成的数据即可,此时,更优选为由3个以上的采样值构成的数据、采样间隔为等间隔的数据。
·在上述实施方式中,将下游侧检测值Afd的时间序列数据设为了由以等间隔采样到的6个值构成的数据,但不限于此。下游侧检测值Afd的时间序列数据为由互不相同的采样定时的2个以上的采样值构成的数据即可,此时,更优选是由3个以上的采样值构成的数据、采样间隔为等间隔的数据。
·在状态包括多个变量的时间序列数据的情况下,构成那些各变量的时间序列数据的变量的采样数相等不是必须的。
·例如如上述“关于行动变量”一栏所记载的那样,在将电磁阀的电流值作为行动变量的情况下,在状态包括变速装置的输入轴52的转速、输出轴54的转速、由电磁阀进行调整的油压即可。另外,例如如上述“关于行动变量”一栏所记载的那样,在将旋转电机的转矩、输出作为行动变量的情况下,在状态包括电池的充电率、温度即可。另外,例如如上述“关于行动变量”一栏所记载的那样,在行动包括压缩机的负荷转矩、空调装置的消耗电力的情况下,在状态包括车室内的温度即可。
“关于奖励算出处理”
·作为在能量利用效率高的情况下给与比能量利用效率低的情况下大的奖励的处理,不限于如图5的S44所示的处理那样取成为基准的效率与实际的工作点的效率之比和“1”的差的处理,例如也可以是取成为基准的效率与实际的工作点的效率之差的处理。
·作为在满足与加速器响应有关的基准的情况下给与比不满足与加速器响应有关的基准的情况下大的奖励的处理,不限于如图5的S46所示那样根据条件(i)和条件(ii)的逻辑积是否为真来给与奖励的处理、如图5的S52所示那样在满足条件(iii)的情况下给与小的奖励的处理。例如,关于根据条件(i)和条件(ii)的逻辑积是否为真来给与奖励的处理、和在满足条件(iii)的情况下给与小的奖励的处理,也可以仅包括在满足条件(iii)的情况下给与小的奖励的处理。另外,也可以代替根据条件(i)和条件(ii)的逻辑积是否为真来给与奖励的处理,执行根据是否满足条件(i)来给与奖励的处理、和根据是否满足条件(ii)来给与奖励的处理。
·例如也可以代替在满足条件(i)的情况下给与一律相同的奖励,而设为在转矩Trq与转矩指令值Trq*之差的绝对值小的情况下给与比该绝对值大的情况下更大的奖励的处理。另外,例如也可以代替在不满足条件(i)的情况下给与一律相同的奖励,而设为在转矩Trq与转矩指令值Trq*之差的绝对值大的情况下给与比该绝对值小的情况下更小的奖励的处理。
·例如也可以代替在满足条件(ii)的情况下给与一律相同的奖励,而设为使奖励的大小为根据加速度Gx的大小而可变的处理。另外,例如也可以代替在不满足条件(ii)的情况下给与一律相同的奖励,而设为使奖励的大小为根据加速度Gx的大小而可变的处理。
·在图10的处理中,根据S100的条件(iv)和条件(v)的逻辑积是否为真来给与了奖励,但不限于此。例如,也可以执行由在车辆的振动强度VV为预定值VVth以下的情况下给与比超过预定值VVth的情况下大的奖励的处理、和在车辆的噪声强度VN为预定值VNth以下的情况下给与比超过预定值VNth的情况下大的奖励的处理构成的两个处理。另外,例如也可以仅执行两个处理中的某一个。
·例如在如上述“关于行动变量”一栏所记载的那样将变速装置50的电磁阀的电流值作为行动变量的情况下,例如在奖励算出处理中包含以下(a)~(c)的三个处理中的至少一个处理即可。
(a)是如下处理:在变速装置的变速比的切换所需要的时间处于预定时间以内的情况下,给与比超过预定时间的情况下大的奖励。
(b)是如下处理:在变速装置的输入轴52的转速的变化速度的绝对值为输入侧预定值以下的情况下,给与比超过输入侧预定值的情况下大的奖励。
(c)是如下处理:在变速装置的输出轴54的转速的变化速度的绝对值为输出侧预定值以下的情况下,给与比超过输出侧预定值的情况下大的奖励。
此外,上述(a)相当于在加速器响应高的情况下给与比加速器响应低的情况下大的奖励的处理。上述(b)、(c)相当于在振动小的情况下给与比振动大的情况下大的奖励的处理。换言之,相当于在车室内的状态满足基准的情况下给与比车室内的状态不满足基准的情况下大的奖励的处理。
·例如如上述“关于行动变量”一栏所记载的那样,也可以在将旋转电机的转矩、输出作为行动变量的情况下,包括在电池的充电率处于预定范围内时给与比电池的充电率不处于预定范围内时大的奖励的处理、在电池的温度处于预定范围内时给与比电池的温度不处于预定范围内时大的奖励的处理。另外,例如如上述“关于行动变量”一栏所记载的那样,也可以在行动变量包括压缩机的负荷转矩、空调装置的消耗电力的情况下,添加在车室内的温度处于预定范围内时给与比车室内的温度不处于预定范围内时大的奖励的处理。
“关于车辆用控制数据的生成方法”
·在图4的S24的处理中,基于行动价值函数Q来决定了行动,但不限于此,也可以等概率地选择可取的全部行动。
“关于控制用映射数据”
·作为通过将车辆的状态与使期待收益最大化的行动变量的值一对一地关联来将车辆的状态作为输入、并输出使期待收益最大化的行动变量的值的控制用映射数据,不限于映射数据。例如也可以是函数近似器。这例如能够通过将对由图9的处理求出的平均值μ进行表现的函数近似器作为控制用映射数据来实现。即,在此将函数近似器输出的平均值μ视为使期待收益最大化的行动变量的值。此外,在此也可以代替在单一的函数近似器的自变量包含喜好变量VT,而按喜好变量VT的值设置互不相同的函数近似器。
“关于车辆用控制系统”
·在图13所示的例子中,在数据解析中心130中执行了S96、S98的全部处理,但不限于此。例如也可以在数据解析中心130中执行S98的处理,但不执行作为奖励的算出处理的S96的处理。在该情况下也可以设为:在图13的(a)部分的S130的处理中,向数据解析中心130发送奖励的算出结果。
·在图13所示的例子中,在车辆侧执行了决定基于策略π的行动的处理(S94的处理),但不限于此。例如设为:从车辆VC1发送通过S22a的处理取得的数据。数据解析中心130也可以使用被发送来的数据来决定行动a,向车辆VC1发送所决定的行动。
·作为车辆用控制系统,不限于由控制装置70和数据解析中心130构成的系统。例如,也可以使用用户的便携终端来代替数据解析中心130。另外,也可以通过控制装置70以及数据解析中心130和便携终端构成车辆用控制系统。这例如能够通过便携终端执行图13的(a)部分的S94的处理来实现。
“关于执行装置”
·作为执行装置,不限于具备CPU72(112、132)和ROM74(114、134)来执行软件处理的装置。例如,也可以具备对在上述实施方式中进行了软件处理的部分的至少一部分进行硬件处理的例如ASIC等的专用的硬件电路。即,执行装置是以下的(a)~(c)中的任一结构即可。(a)具备按照程序执行全部的上述处理的处理装置和存储程序的ROM等的程序保存装置(包括非瞬时的计算机可读取的记录介质)。(b)具备按照程序来执行上述处理的一部分的处理装置以及程序保存装置、和执行其余的处理的专用的硬件电路。(c)具备执行全部的上述处理的专用的硬件电路。在此,具备处理装置和程序保存装置的软件执行装置、专用的硬件电路也可以是多个。
“关于存储装置”
·在上述实施方式中,使存储关系规定数据DR的存储装置和存储学习用程序74b、114a、134a、控制程序74a的存储装置(ROM74、114、134)为互不相同的存储装置,但不限于此。
“关于内燃机”
·作为内燃机,不限于具备向进气通路12喷射燃料的端口喷射阀来作为燃料喷射阀的内燃机,也可以是具备向燃烧室24直接喷射燃料的缸内喷射阀的内燃机。另外,例如也可以是具备端口喷射阀和缸内喷射阀这两方的内燃机。
·作为内燃机,不限于火花点火式内燃机,例如也可以是使用轻油等来作为燃料的压缩着火式内燃机等。
“关于推力生成装置”
·作为搭载于车辆的推力生成装置,不限于内燃机,例如也可以如混合动力车那样为内燃机和旋转电机。另外,例如也可以如电动汽车、燃料电池车那样推力生成装置仅为旋转电机。

Claims (9)

1.一种车辆用控制数据的生成方法,所述生成方法包括:
在关系规定数据存储于存储装置的状态下,通过执行装置取得喜好变量和基于传感器的检测值的车辆的状态,所述喜好变量是表示用户对两个以上的要求要素的相对喜好的变量,所述关系规定数据对所述车辆的状态与行动变量的关系进行规定,所述行动变量是与所述车辆内的电子设备的操作有关的变量;
在所述关系规定数据存储于所述存储装置的状态下,通过所述执行装置对所述电子设备进行操作;
在所述关系规定数据存储于所述存储装置的状态下,通过所述执行装置基于所取得的所述车辆的状态,在所述车辆的特性满足基准的情况下给与比所述车辆的特性不满足基准的情况下的奖励大的奖励;以及
在所述关系规定数据存储于所述存储装置的状态下,通过所述执行装置将所取得的所述车辆的状态、在所述电子设备的操作中所使用了的所述行动变量的值以及与该电子设备的操作对应的所述奖励作为向预先确定的更新映射的输入,由此对所述关系规定数据进行更新,
所述更新映射输出以使按照所述关系规定数据操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据,
所述两个以上的要求要素包括由所述车辆的加速器响应高这一要求要素、所述车辆的振动和噪声中的至少一方小这一要求要素以及能量利用效率高这一要求要素构成的三个要求要素中的至少两个,
给与所述奖励包括:相对于在所述喜好变量的值为第1值的情况下所述车辆的特性为预定特性时所给与的所述奖励,对在所述喜好变量的值为第2值的情况下所述车辆的特性为所述预定特性时所给予的奖励进行变更。
2.根据权利要求1所述的车辆用控制数据的生成方法,
所述车辆具备内燃机,
由所述喜好变量表示相对喜好的所述两个以上的要求要素包括由所述内燃机的排气中的预定成分的浓度低这一要求要素和所述三个要求要素构成的四个要求要素中的至少两个要求要素来代替所述三个要求要素中的至少两个。
3.根据权利要求1或者2所述的车辆用控制数据的生成方法,
所述生成方法还包括:通过所述执行装置,基于被更新后的所述关系规定数据,将所述车辆的状态与使所述期待收益最大化的所述行动变量的值相关联,由此生成控制用映射数据,
所述控制用映射数据将所述车辆的状态作为输入,输出使所述期待收益最大化的所述行动变量的值。
4.一种车辆用控制装置,具备权利要求1~3中的任一项所记载的车辆用控制数据的生成方法中的所述存储装置和所述执行装置,
对所述电子设备进行操作包括:基于所述关系规定数据,按照与所述车辆的状态相应的行动变量的值,对所述电子设备进行操作,
取得所述喜好变量包括:取得用户对所述至少两个要求要素的相对喜好来作为所述喜好变量。
5.一种车辆用控制系统,具备权利要求4所记载的车辆用控制装置中的所述执行装置和所述存储装置,
所述执行装置包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置,
所述第1执行装置构成为至少执行取得所述车辆的状态和所述喜好变量以及对所述电子设备进行操作,
所述第2执行装置构成为至少执行对所述关系规定数据进行更新。
6.一种车辆用控制装置,具备权利要求5所记载的车辆用控制系统中的所述第1执行装置。
7.一种车辆用学习装置,具备权利要求5所记载的车辆用控制系统中的所述第2执行装置。
8.一种车辆用控制数据的生成装置,具备执行装置和存储装置,
在所述存储装置存储关系规定数据的状态下,所述执行装置构成为执行:
取得处理,取得喜好变量和基于传感器的检测值的车辆的状态,所述喜好变量是表示用户对两个以上的要求要素的相对喜好的变量,所述关系规定数据对所述车辆的状态与行动变量的关系进行规定,所述行动变量是与所述车辆内的电子设备的操作有关的变量;
操作处理,对所述电子设备进行操作;
奖励算出处理,基于通过所述取得处理取得的所述车辆的状态,在所述车辆的特性满足基准的情况下给与比所述车辆的特性不满足基准的情况下的奖励大的奖励;以及
更新处理,将通过所述取得处理取得的所述车辆的状态、在所述电子设备的操作中所使用了的所述行动变量的值以及与该操作对应的所述奖励作为向预先确定的更新映射的输入,由此对所述关系规定数据进行更新,
所述更新映射输出以使按照所述关系规定数据操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据,
所述两个以上的要求要素包括由所述车辆的加速器响应高这一要求要素、所述车辆的振动和噪声中的至少一方小这一要求要素以及能量利用效率高这一要求要素构成的三个要求要素中的至少两个,
所述奖励算出处理包括变更处理,所述变更处理相对于在所述喜好变量的值为第1值的情况下所述车辆的特性为预定特性时所给予的所述奖励,对在所述喜好变量的值为第2值的情况下所述车辆的特性为所述预定特性时所给予的奖励进行变更。
9.一种非瞬时性的计算机可读取的存储介质,存储有使执行装置执行车辆用控制数据的生成处理的程序,所述生成处理包括:
在关系规定数据存储于存储装置的状态下,通过所述执行装置取得喜好变量和基于传感器的检测值的车辆的状态,所述关系规定数据对所述车辆的状态与行动变量的关系进行规定,所述行动变量是与所述车辆内的电子设备的操作有关的变量,所述喜好变量是表示用户对两个以上的要求要素的相对喜好的变量;
在所述关系规定数据存储于所述存储装置的状态下,通过所述执行装置对所述电子设备进行操作;
在所述关系规定数据存储于所述存储装置的状态下,通过所述执行装置基于所取得的所述车辆的状态,在所述车辆的特性满足基准的情况下给与比所述车辆的特性不满足基准的情况下的奖励大的奖励;以及
在所述关系规定数据存储于所述存储装置的状态下,通过所述执行装置将所取得的所述车辆的状态、在所述电子设备的操作中所使用了的所述行动变量的值以及与该电子设备的操作对应的所述奖励作为向预先确定的更新映射的输入,由此对所述关系规定数据进行更新,
所述更新映射输出以使按照所述关系规定数据操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据,
所述两个以上的要求要素包括由所述车辆的加速器响应高这一要求要素、所述车辆的振动和噪声中的至少一方小这一要求要素以及能量利用效率高这一要求要素构成的三个要求要素中的至少两个,
给与所述奖励包括:相对于在所述喜好变量的值为第1值的情况下所述车辆的特性为预定特性时所给与的所述奖励,对在所述喜好变量的值为第2值的情况下所述车辆的特性为所述预定特性时所给予的奖励进行变更。
CN202110010997.9A 2020-01-09 2021-01-06 车辆用控制数据的生成方法及装置、车辆用控制装置及系统、车辆用学习装置以及存储介质 Active CN113107685B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-002032 2020-01-09
JP2020002032A JP7243642B2 (ja) 2020-01-09 2020-01-09 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置

Publications (2)

Publication Number Publication Date
CN113107685A true CN113107685A (zh) 2021-07-13
CN113107685B CN113107685B (zh) 2023-02-21

Family

ID=76710165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110010997.9A Active CN113107685B (zh) 2020-01-09 2021-01-06 车辆用控制数据的生成方法及装置、车辆用控制装置及系统、车辆用学习装置以及存储介质

Country Status (3)

Country Link
US (1) US11840245B2 (zh)
JP (1) JP7243642B2 (zh)
CN (1) CN113107685B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210114596A1 (en) * 2019-10-18 2021-04-22 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7287287B2 (ja) 2020-01-09 2023-06-06 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP7331704B2 (ja) 2020-01-09 2023-08-23 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、および車両用制御システム
JP7243642B2 (ja) * 2020-01-09 2023-03-22 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06248997A (ja) * 1993-02-26 1994-09-06 Toyota Motor Corp 車両の駆動力制御装置
US5410477A (en) * 1991-03-22 1995-04-25 Hitachi, Ltd. Control system for an automotive vehicle having apparatus for predicting the driving environment of the vehicle
US20030050742A1 (en) * 2001-08-07 2003-03-13 Mazda Motor Corporation System and method for providing control gain of vehicle
DE10354659A1 (de) * 2003-11-22 2005-06-16 Robert Bosch Gmbh Festlegung einer gemeinsamen Betriebsart für kooperierende Geräte
JP2010086405A (ja) * 2008-10-01 2010-04-15 Fuji Heavy Ind Ltd 制御パラメータの適合化システム
CN102481929A (zh) * 2009-08-18 2012-05-30 丰田自动车株式会社 车辆控制系统
CN105377661A (zh) * 2013-07-11 2016-03-02 丰田自动车株式会社 车辆控制装置
CN109964188A (zh) * 2016-11-03 2019-07-02 三菱电机株式会社 控制车辆的方法和系统

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5532929A (en) 1992-12-16 1996-07-02 Toyota Jidosha Kabushiki Kaisha Apparatus for controlling vehicle driving power
JPH1011106A (ja) * 1996-06-27 1998-01-16 Yamaha Motor Co Ltd 動力源総合制御方式
JPH10254505A (ja) 1997-03-14 1998-09-25 Toyota Motor Corp 自動制御装置
JP2000250604A (ja) 1999-03-02 2000-09-14 Yamaha Motor Co Ltd 特性最適化方法における最適化の協調方法
US6549815B1 (en) 1999-03-02 2003-04-15 Yamaha Hatsudoki Kabushiki Kaisha Method and apparatus for optimizing overall characteristics of device, using heuristic method
WO2001007768A1 (fr) 1999-07-28 2001-02-01 Hitachi, Ltd. Procede et appareil pour papillon commande par moteur, automobile, procede de mesure de la temperature d'un moteur pour la commande du papillon et procede de mesure de la temperature du moteur
JP2002322934A (ja) 2001-04-26 2002-11-08 Toyota Motor Corp 内燃機関の吸気制御装置
US6654677B2 (en) 2001-09-18 2003-11-25 Visteon Global Technologies, Inc. Method and system for providing vehicle control to a driver
JP4005483B2 (ja) 2002-11-20 2007-11-07 日産自動車株式会社 車線逸脱防止装置
JP4348965B2 (ja) 2003-02-25 2009-10-21 マツダ株式会社 自動変速機の変速制御装置
JP2009019523A (ja) 2007-07-10 2009-01-29 Honda Motor Co Ltd 内燃機関の制御装置
JP4930389B2 (ja) 2008-01-18 2012-05-16 三菱自動車工業株式会社 空燃比制御装置及び空燃比制御方法
WO2010048146A1 (en) 2008-10-20 2010-04-29 Carnegie Mellon University System, method and device for predicting navigational decision-making behavior
US8352152B2 (en) 2009-02-10 2013-01-08 Honeywell International Inc. System, method, apparatus and computer program product for providing improved engine control
JP4975158B2 (ja) 2010-11-08 2012-07-11 本田技研工業株式会社 プラントの制御装置
JP6312618B2 (ja) 2015-03-13 2018-04-18 日立オートモティブシステムズ株式会社 内燃機関の制御装置及び異常燃焼検出方法
JP6026612B2 (ja) 2015-09-22 2016-11-16 本田技研工業株式会社 車両用内燃機関の制御装置
JP6253000B1 (ja) 2016-09-14 2017-12-27 マツダ株式会社 車両の制御装置
JP6253001B1 (ja) 2016-09-29 2017-12-27 マツダ株式会社 車両の制御装置
JP6695266B2 (ja) 2016-12-09 2020-05-20 日立オートモティブシステムズ株式会社 内燃機関の異常燃焼検出装置
JP6919997B2 (ja) 2018-02-06 2021-08-18 株式会社日立製作所 制御装置、制御方法、および制御プログラム
JP2019144748A (ja) 2018-02-19 2019-08-29 株式会社デンソー 情報処理システム、車載制御装置、及び情報処理装置
US20190360421A1 (en) 2018-05-24 2019-11-28 GM Global Technology Operations LLC Method to evaluate the instantaneous fuel to torque ice efficiency status
US20200031370A1 (en) * 2018-07-25 2020-01-30 Continental Powertrain USA, LLC Driver Behavior Based Propulsion Control Strategy Using Artificial Intelligence
US10703370B2 (en) 2018-08-24 2020-07-07 Ford Global Technologies, Llc Vehicle action control
CN113015981A (zh) * 2018-11-16 2021-06-22 华为技术有限公司 利用第一原则和约束进行有效、连续和安全学习的系统和方法
JP6547991B1 (ja) 2019-02-20 2019-07-24 トヨタ自動車株式会社 触媒温度推定装置、触媒温度推定システム、データ解析装置、および内燃機関の制御装置
JP6590097B1 (ja) 2019-02-20 2019-10-16 トヨタ自動車株式会社 Pm量推定装置、pm量推定システム、データ解析装置、内燃機関の制御装置、および受信装置
JP6547992B1 (ja) 2019-04-18 2019-07-24 トヨタ自動車株式会社 酸素吸蔵量推定装置、酸素吸蔵量推定システム、内燃機関の制御装置、データ解析装置、および酸素吸蔵量推定方法
JP6665961B1 (ja) 2019-08-01 2020-03-13 トヨタ自動車株式会社 内燃機関の状態検出システム、データ解析装置、及び車両
JP2021032114A (ja) 2019-08-22 2021-03-01 トヨタ自動車株式会社 車両用学習制御システム、車両用制御装置、および車両用学習装置
CN114270367A (zh) 2019-09-26 2022-04-01 赫尔实验室有限公司 对自主系统进行安全且有效的超控的系统和方法
JP6744597B1 (ja) 2019-10-18 2020-08-19 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP6705544B1 (ja) 2019-10-18 2020-06-03 トヨタ自動車株式会社 車両用制御装置、車両用制御システム、および車両用学習装置
JP6809587B1 (ja) 2019-10-18 2021-01-06 トヨタ自動車株式会社 車両用制御装置
JP6744598B1 (ja) 2019-10-18 2020-08-19 トヨタ自動車株式会社 車両用制御システム、車両用制御装置、および車両用学習装置
JP6705546B1 (ja) 2019-10-18 2020-06-03 トヨタ自動車株式会社 車両用制御装置、車両用制御システム、および車両用学習装置
US20210188276A1 (en) 2019-12-20 2021-06-24 Toyota Jidosha Kabushiki Kaisha Vehicle control data generating method, vehicle controller, vehicle control system, and vehicle learning device
JP7287287B2 (ja) 2020-01-09 2023-06-06 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP7331704B2 (ja) * 2020-01-09 2023-08-23 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、および車両用制御システム
JP7243642B2 (ja) * 2020-01-09 2023-03-22 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP7314831B2 (ja) * 2020-02-17 2023-07-26 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5410477A (en) * 1991-03-22 1995-04-25 Hitachi, Ltd. Control system for an automotive vehicle having apparatus for predicting the driving environment of the vehicle
JPH06248997A (ja) * 1993-02-26 1994-09-06 Toyota Motor Corp 車両の駆動力制御装置
US20030050742A1 (en) * 2001-08-07 2003-03-13 Mazda Motor Corporation System and method for providing control gain of vehicle
DE10354659A1 (de) * 2003-11-22 2005-06-16 Robert Bosch Gmbh Festlegung einer gemeinsamen Betriebsart für kooperierende Geräte
JP2010086405A (ja) * 2008-10-01 2010-04-15 Fuji Heavy Ind Ltd 制御パラメータの適合化システム
CN102481929A (zh) * 2009-08-18 2012-05-30 丰田自动车株式会社 车辆控制系统
CN105377661A (zh) * 2013-07-11 2016-03-02 丰田自动车株式会社 车辆控制装置
CN109964188A (zh) * 2016-11-03 2019-07-02 三菱电机株式会社 控制车辆的方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210114596A1 (en) * 2019-10-18 2021-04-22 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
US11654915B2 (en) * 2019-10-18 2023-05-23 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system

Also Published As

Publication number Publication date
CN113107685B (zh) 2023-02-21
JP2021110278A (ja) 2021-08-02
US11840245B2 (en) 2023-12-12
JP7243642B2 (ja) 2023-03-22
US20210213966A1 (en) 2021-07-15

Similar Documents

Publication Publication Date Title
CN113107685B (zh) 车辆用控制数据的生成方法及装置、车辆用控制装置及系统、车辆用学习装置以及存储介质
JP6705545B1 (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP7287287B2 (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP6744597B1 (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP6705544B1 (ja) 車両用制御装置、車両用制御システム、および車両用学習装置
CN112682181B (zh) 车辆用控制装置、车辆用控制系统以及车辆控制方法
JP7302466B2 (ja) 車両用内燃機関の劣化判定装置
JP7331704B2 (ja) 車両用制御データの生成方法、車両用制御装置、および車両用制御システム
JP7314831B2 (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
CN113006951B (zh) 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置
CN113090400B (zh) 车辆用控制装置及控制系统、车辆用学习装置及学习方法、车辆用控制方法以及存储介质
CN112682196B (zh) 车辆用控制装置、车辆用控制系统、以及车辆用学习装置
JP7327198B2 (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
CN113217204A (zh) 车辆控制方法、车辆用控制装置以及服务器
CN113266481A (zh) 车辆控制方法、车辆用控制装置以及服务器
JP7205456B2 (ja) 車両用制御装置、車両用制御システム、および車両用学習装置
CN112682204B (zh) 车辆用控制装置、控制系统、学习装置和方法及存储介质
JP7207289B2 (ja) 車両用制御装置、車両用制御システム、車両用学習装置、および車両用学習方法
JP7205460B2 (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP2021067262A (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
CN113187613A (zh) 控制车辆的方法、用于车辆的控制装置、以及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant