CN113103971B - 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置 - Google Patents

车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置 Download PDF

Info

Publication number
CN113103971B
CN113103971B CN202110002606.9A CN202110002606A CN113103971B CN 113103971 B CN113103971 B CN 113103971B CN 202110002606 A CN202110002606 A CN 202110002606A CN 113103971 B CN113103971 B CN 113103971B
Authority
CN
China
Prior art keywords
vehicle
processing
value
variable
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110002606.9A
Other languages
English (en)
Other versions
CN113103971A (zh
Inventor
桥本洋介
片山章弘
大城裕太
杉江和纪
冈尚哉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN113103971A publication Critical patent/CN113103971A/zh
Application granted granted Critical
Publication of CN113103971B publication Critical patent/CN113103971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/023Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for transmission of signals between vehicle parts or subsystems
    • B60R16/0231Circuits relating to the driving or the functioning of the vehicle
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/24Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means
    • F02D41/2406Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means using essentially read only memories
    • F02D41/2425Particular ways of programming the data
    • F02D41/2429Methods of calibrating or learning
    • F02D41/2441Methods of calibrating or learning characterised by the learning conditions
    • F02D41/2448Prohibition of learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • G07C5/02Registering or indicating driving, working, idle, or waiting time only
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0062Adapting control system settings
    • B60W2050/0075Automatic parameter input, automatic initialising or calibrating means
    • B60W2050/0083Setting, resetting, calibration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2552/00Input parameters relating to infrastructure
    • B60W2552/05Type of road, e.g. motorways, local streets, paved or unpaved roads
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2556/00Input parameters relating to data
    • B60W2556/10Historical data
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2556/00Input parameters relating to data
    • B60W2556/45External transmission of data to or from the vehicle
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2556/00Input parameters relating to data
    • B60W2556/45External transmission of data to or from the vehicle
    • B60W2556/50External transmission of data to or from the vehicle of positioning data, e.g. GPS [Global Positioning System] data
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/182Selecting between different operative modes, e.g. comfort and performance modes
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D2200/00Input parameters for engine control
    • F02D2200/50Input parameters for engine control said parameters being related to the vehicle or its components
    • F02D2200/501Vehicle speed
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/24Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means
    • F02D41/2406Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means using essentially read only memories
    • F02D41/2425Particular ways of programming the data
    • F02D41/2429Methods of calibrating or learning
    • F02D41/2438Active learning methods
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • G07C5/08Registering or indicating performance data other than driving, working, idle, or waiting time, with or without registering driving, working, idle or waiting time
    • G07C5/0808Diagnosing performance data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mechanical Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Combustion & Propulsion (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Combined Controls Of Internal Combustion Engines (AREA)
  • Electrical Control Of Air Or Fuel Supplied To Internal-Combustion Engine (AREA)

Abstract

提供一种车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置。车辆用控制数据的生成方法包括:执行对电子设备进行操作的操作处理,执行取得车辆的状态的取得处理,执行基于车辆的状态给与奖励的奖励算出处理,执行对关系规定数据进行更新的更新处理,奖励算出处理包括变更处理,该变更处理是相对于在区域变量的值为第1值的情况下车辆的特性为预定特性时所给与的奖励,对在区域变量的值为第2值的情况下车辆的特性为预定特性时所给与的奖励进行变更的处理。

Description

车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系 统以及车辆用学习装置
技术领域
本公开涉及车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置。
背景技术
例如日本特开2016-6327号公报记载了一种控制装置,其基于通过由滤波器对加速踏板的操作量进行处理来得到的值,对作为搭载于车辆的内燃机的操作部的节气门进行操作。
上述滤波器需要根据加速踏板的操作量,将搭载于车辆的内燃机的节气门的操作量设定为适当的操作量。因此,滤波器的适配需要本领域技术人员花费许多工时。这样,以往对于与车辆的状态相应的车辆内的电子设备的操作量等的适配,本领域技术人员花费了许多工时。
发明内容
以下,对本公开的多个技术方案及其作用效果进行记载。
技术方案1.根据本公开的一技术方案,提供一种车辆用控制数据的生成方法。所述生成方法包括:在存储装置存储有对车辆的状态和作为与搭载于所述车辆的电子设备的操作有关的变量的行动变量之间的关系进行规定的关系规定数据的状态下,处理电路(processing circuitry)执行对所述电子设备进行操作的操作处理,所述处理电路执行取得作为表示所述车辆所位于的区域的变量的区域变量、和基于传感器的检测值的所述车辆的状态的取得处理,所述处理电路基于通过所述取得处理取得的所述车辆的状态,执行给与奖励的奖励算出处理,所述奖励算出处理是在所述车辆的特性满足预定基准的情况下所给与的所述奖励比所述车辆的特性不满足所述预定基准的情况下所给与的所述奖励大的处理,以及所述处理电路执行更新处理,所述更新处理是使用通过所述取得处理取得的所述车辆的状态、所述电子设备的操作中所使用了的所述行动变量的值以及与所述电子设备的操作对应的所述奖励来作为向预先确定的更新映射的输入,对所述关系规定数据进行更新的处理,所述更新映射是输出以使按照所述关系规定数据操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据的映射,所述奖励算出处理包括变更处理,所述变更处理是相对于在所述区域变量的值为第1值的情况下所述车辆的特性为预定特性时所给与的所述奖励,变更在所述区域变量的值为第2值的情况下所述车辆的特性为所述预定特性时所给予的奖励的处理。
在上述方法中,通过算出伴随着电子设备的操作的奖励,能够掌握通该操作能获得什么样的奖励。并且,基于奖励来通过进行了强化学习的更新映射对关系规定数据进行更新。由此,能够对车辆的状态与行动变量的适当的关系进行设定。因此,能够在对车辆的状态与行动变量的适当的关系进行设定时,削减对本领域技术人员要求的工时。
对车辆要求的特性能够根据车辆所位于的区域而不同。于是,在上述方法中,在根据区域变量对奖励的给与方式进行变更的同时,通过强化学习对关系规定数据进行学习,由此,能够进行能执行对于区域来说适当的控制的关系规定数据的学习。
技术方案2.在技术方案1所记载的车辆用控制数据的生成方法中,所述区域变量包括对根据平均车速区分的区域进行识别的值,所述预定基准包括与加速器响应有关的基准和与能量利用效率有关的基准,所述奖励算出处理包括在满足与所述加速器响应有关的所述基准的情况下给与比不满足与所述加速器响应有关的所述基准的情况下的奖励大的奖励的第1处理、和在满足与所述能量利用效率有关的所述基准的情况下给与比不满足与所述能量利用效率有关的所述基准的情况下的奖励大的奖励的第2处理,所述变更处理包括如下处理:对所述第1处理和所述第2处理中的至少一个处理进行变更,以使得在所述平均车速低的区域的情况下,相比于所述平均车速高的区域的情况,在提高所述能量利用效率会获得更大奖励这一方面是有利的。
根据上述变更处理,相比于在平均车速低的区域中提高加速器响应,提高了能量利用效率时容易获得大的奖励。由此,能够通过强化学习进行在平均车速低的区域中能执行增大了能量利用效率相对于加速器响应的相对的重要度的控制的关系规定数据的学习。
技术方案3.技术方案1或者2所记载的车辆用控制数据的生成方法也可以还包括:所述处理电路执行如下处理:基于通过所述更新处理更新后的所述关系规定数据,对所述车辆的状态和使所述期待收益最大化的所述行动变量的值进行关联,由此生成使用所述车辆的状态作为输入而输出使所述期待收益最大化的所述行动变量的值的控制用映射数据。
在上述方法中,基于通过强化学习进行了学习的关系规定数据,生成控制用映射数据。因此,通过将该控制用映射数据安装于控制装置,能够基于车辆的状态和行动变量,简单地对使期待收益最大化的行动变量的值进行设定。
技术方案4.根据本公开的一技术方案,提供一种车辆用控制装置。所述车辆用控制装置具备技术方案1或者2所述的所述存储装置和所述处理电路,所述操作处理包括基于所述关系规定数据来按照与所述车辆的状态相应的行动变量的值对所述电子设备进行操作的处理。
在上述构成中,基于通过强化学习进行了学习的关系规定数据设定行动变量的值,基于行动变量的值操作电子设备。由此,能够对电子设备进行操作以使得增大期待收益。
技术方案5.根据本公开的一技术方案,提供一种车辆用控制系统。所述车辆用控制系统具备技术方案4所述的所述处理电路和所述存储装置,所述处理电路包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置,所述第1执行装置构成为至少执行所述取得处理和所述操作处理,所述第2执行装置构成为至少执行所述更新处理。
在上述构成中,通过第2执行装置执行更新处理,由此,与第1执行装置执行更新处理的情况相比,能够减轻第1执行装置的运算负荷。
此外,第2执行装置是有别于车载装置的装置意味着第2执行装置不是车载装置。
技术方案6.根据本公开的一技术方案,提供一种具备技术方案5所述的第1执行装置的车辆用控制装置。
技术方案7.根据本公开的一技术方案,提供一种具备技术方案5所述的第2执行装置的车辆用学习装置。
附图说明
图1是表示第1实施方式涉及的控制装置和驱动系统的图。
图2是表示第1实施方式涉及的控制装置执行的处理的步骤的流程图。
图3是表示第1实施方式涉及的生成映射数据的系统的图。
图4是表示第1实施方式涉及的系统执行的处理的步骤的流程图。
图5是表示第1实施方式涉及的学习处理的详细的流程图。
图6是表示第1实施方式涉及的映射数据的生成处理的步骤的流程图。
图7是表示第2实施方式涉及的控制装置和驱动系统的图。
图8是表示第2实施方式涉及的控制装置执行的处理的步骤的流程图。
图9是表示第3实施方式涉及的系统的构成的图。
图10是表示第3实施方式涉及的系统执行的处理的步骤的流程图。
具体实施方式
以下,参照附图对车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置涉及的实施方式进行说明。
<第1实施方式>
在图1中表示本实施方式涉及的车辆VC1的驱动系统和控制装置的构成。
如图1所示,在内燃机10的进气通路12中,从上游侧开始依次设置有节气门14和燃料喷射阀16,被吸入到进气通路12的空气、从燃料喷射阀16喷射的燃料伴随着进气门18的开阀而流入到由气缸20和活塞22区划的燃烧室24。在燃烧室24内,燃料和空气的混合气伴随着点火装置26的火花放电而被供于燃烧,通过燃烧产生的能量经由活塞22被变换为曲轴28的旋转能量。被供于燃烧的混合气伴随着排气门30的开阀而被作为排气排出到排气通路32。在排气通路32设置有作为对排气进行净化的后处理装置的催化剂34。
在曲轴28能够经由具备锁止离合器42的转矩转换器40而以机械的方式连结有变速装置50的输入轴52。变速装置50是使变速比可变的装置,该变速比是输入轴52的转速与输出轴54的转速之比。在输出轴54以机械的方式连结有驱动轮60。
控制装置70将内燃机10作为控制对象,为了对作为其控制量的转矩、排气成分比率等进行控制,对节气门14、燃料喷射阀16以及点火装置26等的内燃机10的操作部进行操作。另外,控制装置70将转矩转换器40作为控制对象,为了对锁止离合器42的接合状态进行控制,对锁止离合器42进行操作。另外,控制装置70将变速装置50作为控制对象,为了对作为其控制量的变速比进行控制,对变速装置50进行操作。此外,在图1中记载了节气门14、燃料喷射阀16、点火装置26、锁止离合器42以及变速装置50各自的操作信号MS1~MS5。
控制装置70为了控制量的控制,对由空气流量计80检测的吸入空气量Ga、由节气门传感器82检测的节气门14的开口度(节气门开口度TA)、曲轴角传感器84的输出信号Scr进行参照。另外,控制装置70对由加速器传感器88检测的加速踏板86的踏下量(加速器操作量PA)、由加速度传感器90检测的车辆VC1的前后方向上的加速度Gx进行参照。另外,控制装置70对基于全球定位系统(GPS92)的位置数据Pgps、由挡位传感器94检测的变速比GR、由车速传感器96检测的车速V进行参照。
控制装置70具备CPU72、ROM74、能电重写的非易失性存储器(存储装置76)以及外围电路78,那些部件设为能够经由局域网络79进行通信。在此,外围电路78包括生成对内部的动作进行规定的时钟信号的电路、电源电路、复位电路等。
在ROM74中存储有控制程序74a。另一方面,在存储装置76中存储有将当前的变速比GR、车速V以及加速器操作量PA的时间序列数据作为输入变量、将节气门开口度指令值TA*和变速比指令值GR*作为输出变量的映射数据DM和地图数据DG,该节气门开口度指令值TA*是节气门开口度TA的指令值,该变速比指令值GR*是变速比GR的指令值。在此,映射数据DM包括市街地用映射数据DM1和一般用映射数据DM2。此外,映射数据是指输入变量的离散的值和分别与输入变量的值对应的输出变量的值的数据组。此外,一般用映射数据DM2主要是设想了在作为平均车速比市街地的平均车速高的区域的郊外使用的数据。
在图2中表示本实施方式涉及的控制装置70执行的处理的步骤。图2所示的处理通过CPU72例如以预定周期反复执行存储于ROM74的程序来实现。此外,以下通过在开头赋予了“S”的数字表现各处理的步骤编号。
在图2所示的一系列处理中,CPU72首先取得位置数据Pgps(S10)。然后,CPU72根据位置数据Pgps确定地图数据DG表示的地图上的位置,判定其位置是否属于市街地(S12)。然后,CPU72在判定为是市街地的情况下(S12:是),选择市街地用映射数据DM1(S14),另一方面,在判定为不是市街地的情况下(S12:否),选择一般用映射数据(S16)。
CPU72在完成S14、16的处理的情况下,取得由加速器操作量PA的6个采样值“PA(1)、PA(2)、……、PA(6)”构成的时间序列数据、当前的变速比GR以及车速V(S18)。在此,构成时间序列数据的各采样值是在互不相同的定时采样到的。在本实施方式中,由以一定的采样周期采样的情况下的在时间序列上互相相邻的6个采样值构成时间序列数据。
并且,CPU72使用通过S14的处理或者S16的处理选择的映射,对节气门开口度指令值TA*和变速比指令值GR*进行映射运算(S20)。在此,映射运算例如设为如下处理即可,该处理为:在输入变量的值与映射数据的输入变量的值中的某一个一致的情况下,将所对应的映射数据的输出变量的值作为运算结果,与此相对,在不一致的情况下,将通过映射数据所包含的多个输出变量的值的内插得到的值作为运算结果。
然后,CPU72向节气门14输出操作信号MS1来对节气门开口度TA进行操作,并且,对变速装置50输出操作信号MS5来对变速比进行操作(S22)。在此,在本实施方式中,例示将节气门开口度TA反馈控制为节气门开口度指令值TA*,因此,即使节气门开口度指令值TA*是相同的值,操作信号MS1也可能成为互不相同的信号。
此外,CPU72在S22的处理完成的情况下暂时结束图2所示的一系列处理。
在图3中表示生成上述映射数据DM的系统。
如图3所示,在本实施方式中,在内燃机10的曲轴28经由转矩转换器40和变速装置50而以机械的方式连结测力计(dynamometer)100。并且,通过传感器组102检测使内燃机10进行了工作时的各种各样的状态变量,检测结果被输入到作为生成映射数据DM的计算机的生成装置110。此外,传感器组102包括搭载于图1所示的车辆VC1的传感器等。
生成装置110具备CPU112、ROM114、能够电重写的非易失性存储器(存储装置116)以及外围电路118,那些部件设为了能够通过局域网络119进行通信。在此,在存储装置116中存储有关系规定数据DR,该关系规定数据DR是对作为状态变量的加速器操作量PA的时间序列数据、车速V以及变速比GR与作为行动变量的节气门开口度指令值TA*以及变速比指令值GR*之间的关系进行规定的数据。关系规定数据DR包括市街地用规定数据DR1和一般用规定数据DR2。另外,在ROM114中存储有通过强化学习对关系规定数据DR进行学习的学习程序114a。
在图4中表示生成装置110执行的处理的步骤。图4所示的处理通过CPU112执行存储于ROM114的学习程序114a来实现。
在图4所示的一系列处理中,CPU112首先设定区域变量VA的值(S30),该区域变量VA是表示是否为市街地的变量。并且,CPU112在使内燃机10进行了工作的状态下,设定加速器操作量PA的时间序列数据、当前的变速比GR以及车速V来作为状态s(S32)。在此的时间序列数据是与S18的处理中的数据同样的数据。但是,在图3所示的系统中,不存在加速踏板86。因此,将加速器操作量PA设为通过生成装置110对车辆VC1的状态进行模拟来以虚拟的方式生成的操作量,将以虚拟的方式生成的加速器操作量PA视为基于传感器的检测值的车辆的状态。另外,车速V是通过CPU112作为假定为了实际存在车辆的情况下的车辆的行驶速度来算出的,在本实施方式中,将该车速视为基于传感器的检测值的车辆的状态。详细而言,CPU112基于曲轴角传感器84的输出信号Scr来算出曲轴28的转速NE,基于转速NE和变速比GR来算出车速V。
接着,CPU112按照市街地用规定数据DR1和一般用规定数据DR2的两个数据中的与通过S30的处理设定的区域变量VA的值对应的数据所确定的策略π,设定包括与通过S32的处理取得的状态s相应的节气门开口度指令值TA*和变速比指令值GR*的行动a(S34)。
在本实施方式中,关系规定数据DR是确定行动价值函数Q和策略π的数据。在本实施方式中,行动价值函数Q是对与状态s和行动a的10维的自变量相应的期待收益的值进行表示的表型式的函数。另外,策略π确定如下规则:在提供了状态s时,虽然优先选择自变量成为所提供的状态s的行动价值函数Q中的成为最大的行动a(贪婪行动(greedy action)),但是以预定的概率ε选择除此之外的行动a。
详细而言,本实施方式涉及的行动价值函数Q的自变量可取的值的数量是通过人的见解等削减了状态s和行动a可取的值的全部组合的一部分后的数量。即,例如对于如加速器操作量PA的时间序列数据中的相邻的两个采样值中的一个为加速器操作量PA的最小值、另一个为最大值这样的状况,认为是不可能由人的加速踏板86的操作产生的,不定义行动价值函数Q。另外,为了避免变速比GR从2档急剧变化为4档,例如在当前的变速比GR为2档的情况下,将作为可取的行动a的变速比指令值GR*限制为1档、2档以及3档。即,在作为状态s的变速比GR为2档的情况下,不定义4档以上的行动a。在本实施方式中,通过基于人的见解等的维度削减,将定义行动价值函数Q的自变量可取的值限制为10的5次方个以下,更优选限制为10的4次方个以下。
接着,CPU112基于所设定的节气门开口度指令值TA*和变速比指令值GR*,与S22的处理同样地输出操作信号MS1、MS5(S36)。接着,CPU112取得转速NE、变速比GR、内燃机10的转矩Trq、对于内燃机10的转矩指令值Trq*以及加速度Gx(S38)。在此,CPU112基于测力计100生成的负荷转矩和变速装置50的变速比来算出转矩Trq。另外,根据加速器操作量PA和变速比GR来设定转矩指令值Trq*。此外,在此,变速比指令值GR*为强化学习的行动变量,因此,不限于变速比指令值GR*为使转矩指令值Trq*为能够由内燃机10能够实现的最大转矩以下的指令值,因此,转矩指令值Trq*不限于能够由内燃机10实现的最大转矩以下的值。另外,CPU112基于测力计100的负荷转矩等,将加速度Gx作为假定地设想为内燃机10等搭载于了车辆的情况下会在车辆产生的值来进行算出。即,在本实施方式中,加速度Gx也是假想的,但关于该加速度Gx,也视为基于传感器的检测值的车辆的状态。
接着,CPU72判定进行了S30的处理的定时和进行了后述的S42的处理的定时中的某一晚的一方起是否经过了预定期间(S40)。并且,CPU112在判定为经过了预定期间的情况下(S40:是),通过强化学习对行动价值函数Q进行更新(S42)。
在图5中表示S42的处理的详细。
在图5所示的一系列处理中,CPU112取得由预定期间内的转速NE、转矩指令值Trq*、转矩Trq以及加速度Gx的4个采样值的组构成的时间序列数据、和状态s以及行动a的时间序列数据(S50)。在图5中,括号中的数字不同的表示是不同的采样定时的变量的值。例如,转矩指令值Trq*(1)和转矩指令值Trq*(2)的采样定时互不相同。另外,将预定期间内的行动a的时间序列数据作为行动集合Aj,将预定期间内的状态s的时间序列数据定义为状态集合Sj。
接着,CPU112基于转矩Trq和转速NE的时间序列数据,算出内燃机10的效率ηe的时间序列数据和基准效率ηer的时间序列数据(S52)。详细而言,CPU112作为“k=1、2、3、……”,基于由转矩Trq(k)和转速NE(k)确定的工作点,算出内燃机10的效率ηe(k)和基准效率ηer。在此,效率ηe按内燃机10的工作点来定义,设为使内燃机10的燃烧室24内的混合气的空燃比为预定值、使点火正时为预定正时的情况下所产生的燃烧能量中的作为动力所取出的比例。另外,基准效率ηer按内燃机10的输出来定义,设为对使内燃机10的燃烧室24内的混合气的空燃比为预定值、使点火正时为预定正时的情况下所产生的燃烧能量中的作为动力所取出的比例的最大值乘以比“1”小的预定系数而得到值。即,基准效率ηer是对作为动力所取出的比例成为最大的工作点的该比例乘以预定系数而得到的值。具体而言,例如在ROM74中存储有将转矩Trq和转速NE作为输入变量、将效率ηe作为输出变量的映射数据的状态下,通过CPU72进行效率ηe的映射运算。另外,例如在ROM74中存储有将作为转矩Trq和转速NE之积的输出作为输入变量、将基准效率ηer作为输出变量的映射数据的状态下,通过CPU72进行基准效率ηer的映射运算。
接着,CPU112将对从对效率ηe(k)除以基准效率ηer(k)后的值减去“1”而得到的值的累计值乘以了系数K后的值代入到奖励r(S54)。根据该处理,在效率ηe比基准效率ηer大的情况下,奖励r成为大于效率ηe比基准效率ηer小的情况下的该奖励r的值。
在此,CPU112使系数K为根据区域变量VA而可变。详细而言,在区域变量VA表示市街地的情况下,将系数K设定为比不是市街地的情况下的该系数K大的值。该设定是降低在市街地的情况下给与预定奖励时的效率的基准的设定。即,给与相同的奖励时的效率ηe在市街地的情况下为低。由此,当在市街地中选择效率ηe高的工作点时,奖励r被设为比不是市街地的情况下的该奖励r大的值。
接着,CPU112判定预定期间内的任意的转矩Trq与转矩指令值Trq*之差的绝对值为规定量ΔTrq以下这一条件(A)和加速度Gx为下限值GxL以上且上限值GxH以下这一条件(B)的逻辑积是否为真(S56)。
在此,CPU112根据情节(episode)开始时的加速器操作量PA的每单位时间的变化量ΔPA和区域变量VA的值,以可变的方式设定规定量ΔTrq。即,CPU112在变化量ΔPA的绝对值大的情况下作为是与过渡时有关的情节,将规定量ΔTrq设定为比稳态时的情况下的该规定量ΔTrq大的值。另外,CPU112在市街地的情况下,将规定量ΔTrq设定为比不是市街地的情况下的该规定量ΔTrq大的值。
另外,CPU112根据情节开始时的加速器操作量PA的变化量ΔPA,以可变的方式设定下限值GxL。即,CPU112在为与过渡时有关的情节且变化量ΔPA为正的情况下,将下限值GxL设定为比与稳态时有关的情节的情况下的该下限值GxL大的值。另外,CPU112在为与过渡时有关的情节且变化量ΔPA为负的情况下,将下限值GxL设定为比与稳态时有关的情节的情况下的该下限值GxL小的值。
另外,CPU72根据情节开始时的加速器操作量PA的每单位时间的变化量ΔPA,以可变的方式设定上限值GxH。即,CPU72在为与过渡时有关的情节且变化量ΔPA为正的情况下,将上限值GxH设定为比与稳态时有关的情节的情况下的该上限值GxH大的值。另外,CPU72在为与过渡时有关的情节且变化量ΔPA为负的情况下,将上限值GxH设定为比与稳态时有关的情节的情况下的该上限值GxH小的值。
另外,CPU112根据区域变量VA的值,以可变的方式设定下限值GxL和上限值GxH。即,CPU112在不是市街地的情况下,相比于市街地的情况,设定下限值GxL和上限值GxH以使得过渡时的加速度Gx的绝对值成为更大的值。
CPU72在判定为逻辑积是真的情况下(S56:是),对奖励r加上“K1·n”(S58),另一方面,在判定为逻辑积是假的情况下(S56:否),从奖励r减去“K1·n”(S60)。在此,“n”表示预定期间中的效率ηe的采样数。S56~S60的处理是如下处理:在满足与加速器响应有关的基准的情况下,给与比不满足与加速器响应有关的基准的的情况下的奖励大的奖励。
CPU112在S58、S60的处理完成的情况下,判定是否满足加速器操作量PA的预定期间中的最大值为阈值PAth以上这一条件(C)(S62)。在此,CPU112在市街地的情况下,将阈值Path设定为比不是市街地的情况下的该阈值Path大的值。CPU112在判定为满足条件(C)的情况下(S62:是),从奖励r减去“K2·n”(S64)。即,在加速器操作量PA过度地大的情况下,用户有可能会感到转矩不足,因此,为了进行惩罚而给与负的奖励。
CPU112在S64的处理完成的情况下、在S62的处理中作出否定判定的情况下,对存储于图3所示的存储装置76的关系规定数据DR进行更新。在本实施方式中,使用ε软同策略型蒙特卡罗方法(ε-soft on-policy Monte Carlo method)。
即,CPU112对由通过上述S50的处理读出的各状态和所对应的行动的组决定的收益R(Sj,Aj)分别加上奖励r(S66)。在此,“R(Sj,Aj)”是对将状态集合Sj的要素中的一个作为状态、并将行动集合Aj的要素中的一个作为行动的收益R进行了总括的记载。接着,关于由通过上述S50的处理读出的各状态和所对应的行动的组确定的各个收益R(Sj,Aj),进行平均化而代入到所对应的行动价值函数Q(Sj,Aj)(S68)。在此,平均化设为对通过S68的处理算出的收益R除以进行了S68的处理的次数的处理即可。此外,收益R的初始值设为零即可。
接着,CPU112关于通过上述S50的处理读出的状态,分别将所对应的行动价值函数Q(Sj,A)中的作为成为最大值时的节气门开口度指令值TA*和变速比指令值GR*的组的行动代入到行动Aj*(S70)。在此,“A”表示可取的任意的行动。此外,行动Aj*是根据通过上述S50的处理读出的状态的种类而成为各个值的行动,在此简化标记而记载为同一记号。
接着,CPU112关于通过上述S50的处理读出的各个状态,对所对应的策略π(Aj|Sj)进行更新(S72)。即,当将行动的总数设为“|A|”时,将通过S72选择的行动Aj*的选择概率设为“(1-ε)+ε/|A|”。另外,将行动Aj*以外的“|A|-1”个行动的选择概率分别设为“ε/|A|”。由于S72的处理是基于通过S68的处理更新的行动价值函数Q的处理,由此,对状态s与行动a的关系进行规定的关系规定数据DR被进行更新以使收益R增加。
此外,CPU112在S72的处理完成的情况下,暂时结束图5所示的一系列处理。
返回图4,CPU112当S42的处理完成时判定行动价值函数Q是否已收敛(S44)。在此,在S42的处理的行动价值函数Q的更新量成为预定值以下的连续次数达到预定次数的情况下判定为已收敛即可。CPU112在判定为未收敛的情况下(S44:否)、在S40的处理中作出否定判定的情况下,返回S32的处理。与此相对,CPU112在判定为已收敛的情况下(S44:是),关于市街地和市街地以外这两方判定在S44的处理中是否作出了肯定判定(S46)。
CPU112在关于任一方判定为尚未在S44的处理中作出肯定判定的情况下(S46:否),返回S30的处理,对区域变量VA进行设定。CPU112在S46的处理中作出肯定判定的情况下,暂时结束图4所示的一系列处理。
在图6中表示基于通过生成装置110执行的处理中的特别是图4的处理进行了学习后的行动价值函数Q来生成映射数据DM的处理的步骤。图6所示的处理通过CPU112执行存储于ROM114的学习程序114a来实现。
在图6所示的一系列处理中,CPU112首先设定区域变量VA的值(S80)。然后,CPU112对成为映射数据DM的输入变量的值的多个状态s中的一个进行选择(S82)。接着,CPU112对由市街地用规定数据DR1和一般用规定数据DR2中的通过S80的处理设定的区域变量VA的值所对应的数据规定且与状态s对应的行动价值函数Q(s,A)中的、使行动价值函数Q的值为最大的行动a进行选择(S84)。即,在此,通过贪婪策略来选择行动a。接着,CPU112使状态s和行动a的组存储于存储装置116(S86)。
接着,CPU112判定是否通过S82的处理选择了作为映射数据DM的输入变量的值的全部状况(S88)。并且,CPU112在判定为存在未选择的状况的情况下(S88:否),返回S82的处理。与此相对,CPU112在判定为全部状况被选择了的情况下(S88:是),判定是否通过S80的处理设定了作为区域变量VA的值可取的全部值(S90)。CPU112在判定为存在尚未被设定的值的情况下(S90:否),返回S80的处理来对其值进行设定。
与此相对,CPU112在判定为已设定全部值的情况下(S90:是),生成市街地用映射数据DM1和一般用映射数据DM2(S92)。在此,将与映射数据DM的输入变量的值为状态s的映射数据对应的输出变量的值作为所对应的行动a。
此外,CPU112在S92的处理完成的情况下,暂时结束图6所示的一系列处理。
在此,对本实施方式的作用和效果进行说明。
在图3所示的系统中,CPU112通过强化学习对行动价值函数Q进行学习。并且设为:在行动价值函数Q的值收敛的情况下,在满足关于能量利用效率要求的基准和关于加速器响应要求的基准上进行了适当的行动的学习。并且,CPU112关于成为映射数据DM的输入变量的各个状态,选择使行动价值函数Q最大化的行动,将状态和行动的组存储于存储装置116。接着,CPU112基于存储于存储装置116的状态和行动的组,生成映射数据DM。由此,能够不过度增大本领域技术人员的工时地设定与加速器操作量PA、车速V以及变速比GR相应的适当的节气门开口度指令值TA*和变速比指令值GR*。
特别是,在本实施方式中,根据是否为市街地,对与状态s相应的行动a分别进行了学习。详细而言,在为市街地时,缓和对于加速器响应的基准,另一方面,给与了奖励以使得效率ηe变高时是有利的。由此,在市街地用规定数据DR1的学习时,即使使加速器响应比较低,也能够满足上述条件(A)和条件(B)来给与通过S58的处理获得的奖励,并且,尽量提高效率ηe在增大合计的奖励上是有利的。因此,能够将市街地用映射数据DM1设为能够进行能量利用效率高的控制的数据。
另一方面,在一般用规定数据DR2的学习时,虽然提高了效率ηe,但通过S54的处理获得的奖励变小,因此,在提高合计的奖励上,满足上述条件(A)和条件(B)来给与通过S58的处理获得的奖励是有利的。因此,能够将一般用映射数据DM2设为使对于用户的加速器操作的响应性良好的控制成为可能的数据。
根据以上说明的本实施方式,能进一步得到以下记载的作用和效果。
(1)在控制装置70具备的存储装置76存储有映射数据DM,而不是行动价值函数Q等。由此,CPU72基于使用了映射数据DM的映射运算,对节气门开口度指令值TA*和变速比指令值GR*进行设定,因此,与执行对行动价值函数Q中的成为最大值的函数进行选择的处理的情况相比,能够减轻运算负荷。
(2)行动价值函数Q的自变量包含了加速器操作量PA的时间序列数据。由此,与关于加速器操作量PA而仅将单一的采样值作为自变量的情况相比,能够相对于加速器操作量PA的各种各样的变化来精细地调整行动a的值。
(3)行动价值函数Q的自变量包含了节气门开口度指令值TA*自身。由此,例如与将对节气门开口度指令值TA*的行为进行模型化而得到的模型式的参数等作为与节气门开口度有关的自变量的情况相比,容易提高通过强化学习进行的搜索的自由度。
<第2实施方式>
以下,以与第1实施方式的不同点为中心来参照附图对第2实施方式进行说明。
在图7中表示本实施方式涉及的车辆VC1的驱动系统和控制装置。此外,在图7中,为了便于说明,对与图1所示的部件对应的部件赋予了同一标号。
如图7所示,在本实施方式中,除了控制程序74a之外,在ROM74中还存储有学习程序74b。另外,在存储装置76未存储映射数据DM,取而代之,存储有关系规定数据DR,另外,存储有转矩输出映射数据DT。在此,关系规定数据DR是通过图4的处理进行了学习的已学习的数据,是将状态s设为加速器操作量PA的时间序列数据、车速V以及变速比GR、将行动a设为节气门开口度指令值TA*和变速比指令值GR*的数据。关系规定数据DR包括市街地用规定数据DR1和一般用规定数据DR2。另外,由转矩输出映射数据DT规定的转矩输出映射是与将转速NE、充填效率η以及点火正时作为输入、并输出转矩Trq的神经网络等的已学习模型有关的数据。此外,上述转矩输出映射数据DT例如设为在执行图4的处理时将通过S38的处理取得的转矩Trq作为教师数据进行了学习后的数据即可。此外,通过CPU72基于转速NE和吸入空气量Ga来算出充填效率η即可。
在图8中表示本实施方式涉及的控制装置70执行的处理的步骤。图8所示的处理通过CPU72例如以预定周期反复执行存储于ROM74的控制程序74a和学习程序74b来实现。此外,在图8中,为了便于说明,对与图4所示的处理对应的处理赋予了同一步骤编号。
在图8所示的一系列处理中,CPU72首先执行图2的S10、S12的处理,在判定为是市街地的情况下(S12:是),将“1”代入到区域变量VA,并且,选择市街地用规定数据DR1(S100)。与此相对,CPU72在判定为不是市街地的情况下(S12:否),将“2”代入到区域变量VA,并且,选择一般用规定数据DR2(S102)。CPU112在S100、S102的处理完成的情况下,取得加速器操作量PA的时间序列数据、当前的变速比GR以及车速V取得来作为状态s(S32a),执行图4的S34~S42的处理。此外,CPU72在S40的处理中作出否定判定的情况下、完成S42的处理的情况下,暂时结束图8所示的一系列处理。此外,S10、S12、S100、S102、S32a、S34~S40的处理通过CPU72执行控制程序74a来实现,S42的处理通过CPU72执行学习程序74b来实现。
这样,根据本实施方式,通过对控制装置70安装关系规定数据DR和学习程序74b,与第1实施方式的情况相比,能够使学习频度提高。
<第3实施方式>
以下,以与第2实施方式的不同点为中心来参照附图对第3实施方式进行说明。
在本实施方式中,在车辆VC1外执行关系规定数据DR的更新。
在图9中表示在本实施方式中执行强化学习的控制系统的构成。此外,在图9中,为了便于说明,对与图1所示的部件对应的部件赋予了同一标号。
图9所示的车辆VC1内的控制装置70中的ROM74存储有控制程序74a,但不存储学习程序74b。另外,控制装置70具备通信机77。通信机77是用于经由车辆VC1外部的网络120与数据解析中心130进行通信的设备。
数据解析中心130对从多个车辆VC1、VC2、……发送的数据进行解析。数据解析中心130具备CPU132、ROM134、能够电重写的非易失性存储器(存储装置136)、外围电路138以及通信机137,那些部件设为能够通过局域网络139进行通信。在ROM134中存储有学习程序134a,在存储装置136中存储有关系规定数据DR。
在图10中表示本实施方式涉及的强化学习的处理步骤。图10的(a)所示的处理通过CPU72执行存储于图9所示的ROM74的控制程序74a来实现。另外,图10的(b)所示的处理通过CPU132执行存储于ROM134的学习程序134a来实现。此外,在图10中,为了便于说明,对与图8所示的处理对应的处理赋予同一步骤编号。以下,沿着强化学习的时间序列来对图10所示的处理进行说明。
在图10的(a)所示的一系列处理中,CPU72执行S10、S12、S100、S102、S32a、S34~S38的处理,在判定为经过了预定期间的情况下(S40:是),通过对通信机77进行操作,发送关系规定数据DR的更新处理所需要的数据(S110)。在此,被作为发送对象的数据包括预定期间内的区域变量VA的值、转速NE、转矩指令值Trq*、转矩Trq以及加速度Gx的时间序列数据、状态集合Sj以及行动集合Aj。
与此相对,如图10的(b)所示,CPU132接收被发送来的数据(S120),基于所接收到的数据来对关系规定数据DR进行更新(S42)。并且,CPU132判定关系规定数据DR的更新次数是否为预定次数以上(S122),在判定为是预定次数以上的情况下(S122:是),对通信机137进行操作,向发送了通过S120的处理接收到的数据的车辆VC1发送关系规定数据DR(S124)。此外,CPU132在完成S124的处理的情况下、在S122的处理中作出否定判定的情况下,暂时结束图10的(b)所示的一系列处理。
与此相对,如图10的(a)所示,CPU72对是否存在更新数据进行判定(S112),在判定为存在更新数据的情况下(S112:是),接收被更新后的关系规定数据DR(S114)。并且,CPU将在S34的处理中利用的关系规定数据DR重写为所接收到的关系规定数据DR(S116)。此外,CPU72在完成S116的处理的情况下、在S40、S112的处理中作出否定判定的情况下,暂时结束图10的(a)所示的一系列处理。
这样,根据本实施方式,在车辆VC1外部进行关系规定数据DR的更新处理,因此,能够减少控制装置70的运算负荷。进一步,例如若是在S120的处理中接收到来自多个车辆VC1、VC2的数据而进行S42的处理,则能够容易地增大学习中使用的数据数量。
<对应关系>
上述实施方式中的事项与上述“发明内容”一栏所记载的事项的对应关系为如下所述。以下,按“发明内容”一栏所记载的技术方案的编号表示了对应关系。
[1、2]执行装置、即处理电路(processing circuitry)在图7中对应于CPU72和ROM74,在图3中对应于CPU112和ROM114,在图9中对应于CPU72、132和ROM74、134。存储装置在图7中对应于存储装置76,在图3中对应于存储装置116,在图9中对应于存储装置76、136。取得处理对应于图4的S30、S32、S38的处理、图8和图10的S10、S12、S100、S102、S32a、S38的处理。操作处理对应于S36的处理,奖励算出处理对应于S52~S64的处理,更新处理对应于S66~S72的处理。更新映射对应于由学习程序74b中的执行S66~S72的处理的指令规定的映射。变更处理对应于在S54的处理中使系数K根据区域变量VA可变的处理、在S56的处理中使条件(A)和条件(B)根据区域变量VA可变的处理、在S62的处理中使阈值Path根据区域变量VA可变的处理。
[3]控制用映射数据对应于映射数据DM。
[4]执行装置以及存储装置分别对应于图7中的CPU72以及ROM74和存储装置76。
[5~7]第1执行装置对应于CPU72和ROM74,第2执行装置对应于CPU132和ROM134。
<其他实施方式>
此外,本实施方式能够如以下那样进行变更来实施。本实施方式和以下的变更例能够在技术上不矛盾的范围内相互组合来实施。
“关于区域变量”
·作为对根据行进方向上的平均车速区分的区域进行识别的区域变量,不限于是否为市街地。例如也可以是是否为拥挤区间。另外,例如也可以是对市街地、拥挤区间以及那些以外的三个区域进行识别的变量。
·作为区域变量,不限于对将特定的国家细分化而得到的区域进行识别的变量。例如,也可以是对国家进行识别的变量。
“关于变更处理”
·在S56的处理中,使条件(A)和条件(B)为根据是否为市街地而可变,但不限于此。例如,也可以使S58、S60的处理中的系数K1为根据是否为市街地而可变。即,例如若是在市街地中减小系数K1,则满足条件(A)和条件(B)在增大合计的奖励上并不那么有利,因此,容易进行提高效率ηe的学习。
·在S62的处理中,使阈值Path为根据是否为市街地而可变,但不限于此。例如,也可以使S64的处理中的系数K2为根据是否为市街地而可变。即,例如若是在市街地中减少系数K2,则在S62的处理中作出否定判定在增大合计的奖励上并不那么有利,因此,容易进行提高效率ηe的学习。
·不限于仅执行如S56、S62的处理那样变更对于加速器响应的基准的处理、和如上述变更例那样对与是否满足加速器响应的基准相应的奖励进行变更的处理中的某一方,例如也可以执行这两方。
·例如,也可以设为:在S54的处理中使系数K为根据区域变量VA而可变的同时,不执行变更对于加速器响应的基准的处理、和如上述变更例那样对与是否满足加速器响应的基准相应的奖励进行变更的处理这两方。
·例如,也可以设为变更为在市街地中不能满足条件(A)和条件(B)的条件、并且在S60的处理中对奖励r加上零的处理,在不是市街地的情况下,将S54的处理中的基准效率ηer设为不可取的高效率,并且,将累计值和零中的大的一方代入到奖励r。这等价于:在市街地中,不执行在加速器响应满足基准的情况下给与比加速器响应不满足基准的情况下大的奖励的处理,在不是市街地时不执行在能量利用效率满足基准的情况下给与比能量利用效率不满足基准的情况下大的奖励的处理。因此,也可以设为如下处理:在市街地中,不执行在加速器响应满足基准的情况下给与比加速器响应不满足基准的情况下大的奖励的处理,在不是市街地时,不执行在能量利用效率满足基准的情况下给与比能量利用效率不满足基准的情况下大的奖励的处理。对此,也可视为对在加速器响应满足基准的情况下给与比加速器响应不满足基准的情况下大的奖励的处理、和在能量利用效率满足基准的情况下给与比能量利用效率不满足基准的情况下大的奖励的处理中的至少一个处理进行变更的处理。
·在如“关于区域变量”一栏所记载的那样,区域变量为对国家进行识别的变量的情况下,例如也可以根据国民性来对使对于加速器响应的要求事项优先的奖励、和使对于能量利用效率的要求事项优先的奖励进行切换。在对其进行执行来作为第1实施方式的变更例的情况下,生成各国的映射数据DM即可。另外,在作为图9的系统的变更例来进行执行的情况下,关于相同的国家的车辆,发送通过一律相同的奖励进行了学习的关系规定数据DR,在不同的国家彼此中,发送通过互不相同的奖励进行了更新后的关系规定数据DR即可。
·作为变更处理,不限于对使对于加速器响应的要求事项优先的奖励和使对于能量利用效率的要求事项优先的奖励进行切换。例如,也可以在对于排气的规定根据国家而不同的情况下,根据国家来变更对于排气成分的基准。
“关于能量利用效率”
·在上述实施方式中,仅基于工作点来对能量利用效率进行了定量化,但不限于此。例如,如下述“关于行动变量”一栏所记载的那样,在行动变量包含点火正时的情况下,当被采用了的点火正时从MBT偏离时,根据该偏离量来对能量利用效率进行减少修正即可。另外,在行动变量包含与空燃比控制有关的变量的情况下,当所被采用的空燃比从预定空燃比偏离时,根据该偏离量来对能量利用效率进行修正即可。
“关于表形式的数据的维度削减”
·作为表形式的数据的维度削减方法,不限于在上述实施方式中例示的方法。例如加速器操作量PA很少会成为最大值,因此,关于加速器操作量PA成为规定量以上的状态,也可以不定义行动价值函数Q,对加速器操作量PA成为规定量以上的情况下的节气门开口度指令值TA*等另外进行适配。另外,例如也可以通过从行动可取的值去掉节气门开口度指令值TA*成为规定值以上的值等来进行维度削减。
“关于关系规定数据”
·在上述实施方式中将行动价值函数Q设为了表形式的函数,但不限于此。例如,也可以使用函数近似器。
·例如,也可以代替使用行动价值函数Q,通过将状态s和行动a作为自变量、并将采取行动a的概率作为因变量的函数近似器来表现策略π,根据奖励r来对确定函数近似器的参数进行更新。此外,在该情况下,既可以具有与区域变量VA的值相应的各个函数近似器,另外,例如也可以在作为单一的函数近似器的自变量的状态s中包括区域变量VA。
“关于操作处理”
·例如如“关于关系规定数据”一栏所记载的那样,在将行动价值函数作为函数近似器的情况下,关于与上述实施方式中的表型式的函数的成为自变量的行动有关的离散的值的全部组,与状态s一起输入到行动价值函数Q,由此,确定使行动价值函数Q最大化的行动a即可。在该情况下,例如,在主要将所确定的行动a采用于操作的同时,以预定概率选择那以外的行动即可。
·例如如“关于关系规定数据”一栏所记载的那样,在将策略π设为将状态s和行动a作为自变量、并将采取行动a的概率作为因变量的函数近似器的情况下,基于由策略π表示的概率,选择行动a即可。
“关于更新映射”
·在S66~S72的处理中,例示了基于ε软同策略型蒙特卡罗法的处理,但不限于此。例如,也可以是基于离策略型蒙特卡罗法(off-policy Monte Carlo method)的。当然,不限于蒙特卡罗法,例如也可以使用离策略型TD法,另外,例如也可以使用如SARSA法那样的同策略型TD法,另外,例如也可以使用资格迹法(eligibility trace method)来作为同策略型的学习。
·例如如“关于关系规定数据”一栏所记载的那样,在使用函数近似器来表现策略π、基于奖励r直接对其进行更新的情况下,使用策略梯度法等来构成更新映射即可。
·不限于仅将行动价值函数Q和策略π中的某一方作为基于奖励r的直接的更新对象。例如,也可以如Actor-Critic法那样分别对行动价值函数Q和策略π进行更新。另外,在Actor-Critic法中,不限于此,例如也可以代替行动价值函数Q而将价值函数V作为更新对象。
“关于行动变量”
·在上述实施方式中,作为与作为行动变量的节气门的开口度有关的变量,例示了节气门开口度指令值TA*,但不限于此。例如,也可以用无用时间和二阶滞后滤波器表现节气门开口度指令值TA*对于加速器操作量PA的响应性,将无用时间、规定二阶滞后滤波器的两个变量的合计三个变量作为与节气门的开口度有关的变量。但是,在该情况下,对于状态变量,优选代替加速器操作量PA的时间序列数据而设为加速器操作量PA的每单位时间的变化量。
·在上述实施方式中,作为行动变量,例示了与节气门的开口度有关的变量和与变速比有关的变量,但不限于此。例如,在与节气门的开口度有关的变量和与变速比有关的变量之外,也可以使用与点火正时有关的变量、与空燃比控制有关的变量。
·如“关于内燃机”一栏所记载的那样,在为压缩着火式的内燃机的情况下,使用与喷射量有关的变量来代替与节气门的开口度有关的变量即可。另外,也可以在此基础上,例如使用与喷射正时有关的变量、与一个燃烧周期中的喷射次数有关的变量、与用于一个燃烧周期中的一个气缸的在时间序列上相邻的2个燃料喷射中的一方的结束定时与另一方的开始定时之间的时间间隔有关的变量。
·例如也可以在变速装置50为有级变速装置的情况下,将用于通过油压对离合器的接合状态进行调整的电磁阀的电流值等作为行动变量。
·如下述“关于电子设备”一栏所记载的那样,在与行动变量相应的操作的对象包括旋转电机的情况下,行动变量包括旋转电机的转矩、电流即可。即,作为与推力生成装置的负荷有关的变量即负荷变量,不限于与节气门的开口度有关的变量、喷射量,也可以是旋转电机的转矩、电流。
·如下述“关于电子设备”一栏所记载的那样,在与行动变量相应的操作的对象包括锁止离合器42的情况下,行动变量包括表示锁止离合器42的接合状态的变量即可。在此,在行动变量包括锁止离合器42的接合状态的情况下,根据提高能量利用效率之意的要求事项的优先级的大小来改变行动变量的值是特别有效的。
“关于状态”
·在上述实施方式中,将加速器操作量PA的时间序列数据设为了由等间隔地采样到的6个值构成的数据,但不限于此。是由互不相同的采样定时的2个以上的采样值构成的数据即可,此时,优选是由3个以上的采样值构成的数据、采样间隔为等间隔的数据。
·作为与加速器操作量有关的状态变量,不限于加速器操作量PA的时间序列数据,例如也可以如“关于行动变量”一栏所记载的那样为加速器操作量PA的每单位时间的变化量等。
·例如如“关于行动变量”一栏所记载的那样,在将电磁阀的电流值作为行动变量的情况下,在状态包括变速装置的输入轴52的转速、输出轴54的转速、由电磁阀进行调整的油压即可。另外,例如如“关于行动变量”一栏所记载的那样,在将旋转电机的转矩、输出作为行动变量的情况下,在状态包括电池的充电率、温度即可。另外,例如如“关于行动变量”一栏所记载的那样,在行动包括压缩机的负荷转矩、空调装置的消耗电力的情况下,在状态包括车室内的温度即可。
“关于奖励算出处理”
·也可以代替S52、S54的处理,设为在预定期间的转速NE成为预定范围内的情况下给与比脱离预定范围的情况下大的奖励,在市街地的情况下,相比于那以外的情况,使预定范围更靠低转速侧。
·作为在能量利用效率高的情况下给与比能量利用效率低的情况下大的奖励的处理,不限于取成为基准的效率与实际的工作点的效率之比和“1”的差的处理,例如也可以是取成为基准的效率与实际的工作点的效率之差的处理。
·作为在满足与加速器响应有关的基准的情况下给与比不满足与加速器响应有关的基准的情况下大的奖励的处理,不限于根据条件(A)和条件(B)的逻辑积是否为真来给与奖励的处理、在满足条件(C)的情况下给与小的奖励的处理。例如,关于根据条件(A)和条件(B)的逻辑积是否为真来给与奖励的处理、和在满足条件(C)的情况下给与小的奖励的处理,也可以仅包括根据条件(A)和条件(B)的逻辑积是否为真来给与奖励的处理等中的任一方。另外,也可以代替根据条件(A)和条件(B)的逻辑积是否为真来给与奖励的处理,执行根据是否满足条件(A)来给与奖励的处理、和根据是否满足条件(B)来给与奖励的处理。
·例如也可以代替在满足条件(A)的情况下给与一律相同的奖励,而设为在转矩Trq与转矩指令值Trq*之差的绝对值小的情况下给与比该绝对值大的情况下更大的奖励的处理。另外,例如也可以代替在不满足条件(A)的情况下给与一律相同的奖励,而设为在转矩Trq与转矩指令值Trq*之差的绝对值大的情况下给与比该绝对值小的情况下更小的奖励的处理。
·例如也可以代替在满足条件(B)的情况下给与一律相同的奖励,而设为使奖励的大小为根据加速度Gx的大小而可变的处理。另外,例如也可以代替在不满足条件(B)的情况下给与一律相同的奖励,而设为使奖励的大小为根据加速度Gx的大小而可变的处理。
·不限于由在满足与加速器响应有关的基准的情况下给与比不满足与加速器响应有关的基准的情况下大的奖励的处理、和在能量利用效率满足基准的情况下给与比能量利用效率不满足基准的情况下大的奖励的处理构成奖励算出处理。例如,也可以由在满足与加速器响应有关的基准的情况下给与比不满足与加速器响应有关的基准的情况下大的奖励的处理、和在车室内的状态满足基准的情况下给与比车室内的状态不满足基准的情况下大的奖励的处理构成奖励算出处理。在此,作为在车室内的状态满足基准的情况下给与比车室内的状态不满足基准的情况下大的奖励的处理,例如也可以是在车辆的振动强度为预定值以下的情况下给与比超过预定值的情况下大的奖励等、在车辆的振动强度小情况下给与比车辆的振动强度大的情况下大的奖励的处理。另外,例如也可以是在车辆的噪声强度为预定值以下的情况下给与比超过预定值的情况下大的奖励等、在车辆的噪声强度小的情况下给与比车辆的噪声强度大的情况下大的奖励的处理。
·例如也可以在满足与加速器响应有关的基准的情况下给与比不满足与加速器响应有关的基准的情况下大的奖励的处理、和在排气特性满足基准的情况下给与比排气特性不满足基准的情况下大的奖励的处理。另外,例如也可以在能量利用效率满足基准的情况下给与比能量利用效率不满足基准的情况下大的奖励的处理、和在排气特性满足基准的情况下给与排气特性不满足基准的情况下大的奖励的处理。另外,例如也可以包括在满足与加速器响应有关的基准的情况下给与比不满足与加速器响应有关的基准的情况下大的奖励的处理、和在能量利用效率满足基准的情况下给与比能量利用效率不满足基准的情况下大的奖励的处理以及在排气特性满足基准的情况下给与比排气特性不满足基准的情况下大的奖励的处理这三个处理。总之,通过在基于能够相互成为背反的多个基准来给与奖励的情况下,根据区域变量来对奖励的给与方式进行变更,能够在区域中进行更适当的关系规定数据的学习。
·例如在如“关于行动变量”一栏所记载的那样将变速装置50的电磁阀的电流值作为行动变量的情况下,例如在奖励算出处理中包含以下(a)~(c)的三个处理中的至少一个处理即可。
(a)是如下处理:在变速装置的变速比的切换所需要的时间处于预定时间以内的情况下,提供比超过预定时间的情况下大的奖励。
(b)是如下处理:在变速装置的输入轴52的转速的变化速度的绝对值为输入侧预定值以下的情况下,提供比超过输入侧预定值的情况下大的奖励。
(c)是如下处理:在变速装置的输出轴54的转速的变化速度的绝对值为输出侧预定值以下的情况下,提供比超过输出侧预定值的情况下大的奖励。
此外,上述(a)相当于在加速器响应高的情况下给与比加速器响应低的情况下大的奖励的处理。上述(b)、(c)相当于在振动小的情况下给与比振动大的情况下大的奖励的处理。换言之,相当于在车室内的状态满足基准的情况下给与比车室内的状态不满足基准的情况下大的奖励的处理。
·例如如“关于行动变量”一栏所记载的那样,也可以在将旋转电机的转矩、输出作为行动变量的情况下,包括在电池的充电率处于预定范围内时给与比电池的充电率不处于预定范围内时大的奖励的处理、在电池的温度处于预定范围内时给与比电池的温度不处于预定范围内时大的奖励的处理。另外,例如如“关于行动变量”一栏所记载的那样,也可以在行动变量包括压缩机的负荷转矩、空调装置的消耗电力的情况下,添加在车室内的温度处于预定范围内时给与比车室内的温度不处于预定范围内时大的奖励的处理。该处理成为在车室内的舒适性高的情况下给与比舒适性低的情况下大的奖励的处理。
“关于车辆用控制数据的生成方法”
·在图4的S34的处理中,基于行动价值函数Q来决定了行动,但不限于此,也可以等概率地选择可取的全部行动。
“关于控制用映射数据”
·作为通过将车辆的状态与使期待收益最大化的行动变量的值1对1地关联来将车辆的状态作为输入、并输出使期待收益最大化的行动变量的值的控制用映射数据,不限于此映射数据。例如也可以是函数近似器。这例如如上述“关于更新映射”一栏所记载的那样,能够通过在使用策略坡度法等的情况下用对可取行动变量的值的概率进行表示的高斯分布表现策略π,用函数近似器表现其平均值,对表现平均值的函数近似器的参数进行更新,将学习后的平均值作为控制用映射数据来实现。即,在此将函数近似器输出的平均值视为使期待收益最大化的行动变量的值。此时,也可以按区域变量VA的值来设置各个函数近似器,但也可以在单一的函数近似器的自变量中的状态s包括区域变量VA。
“关于电子设备”
·作为成为与行动变量相应的操作的对象的内燃机的操作部,不限于节气门14。例如,也可以是点火装置26、燃料喷射阀16。
·作为成为与行动变量相应的操作的对象的电子设备中的、推力生成装置与驱动轮之间的驱动系统装置,不限于变速装置50,例如也可以是锁止离合器42。
·如下述“关于推力生成装置”一栏所记载的那样,在具备旋转电机来作为推力生成装置的情况下,也可以将成为与行动变量相应的操作的对象的电子设备设为连接于旋转电机的变换器等的电力变换电路。当然,不限于车载驱动系统的电子设备,例如也可以是车载空调装置等。即使是在该情况下,例如在通过推力生成装置的旋转动力驱动车载空调装置时,推力生成装置的动力中的被供给至驱动轮60的动力依赖于车载空调装置的负荷转矩,因此,在行动变量包括车载空调装置的负荷转矩等也是有效的。另外,例如即使为车载空调装置不利用推力生成装置的旋转动力,由于会影响到能量利用效率,因此,对行动变量添加车载空调装置的消耗电力也是有效的。
“关于车辆用控制系统”
·在图10所示的例子中,在数据解析中心130中执行了S42的全部处理,但不限于此。例如也可以设为:在数据解析中心130中执行S66~S72的处理,但不执行作为奖励的算出处理的S52~S64的处理,在S110的处理中发送奖励的算出结果。
·在图10所示的例子中,在车辆侧执行了决定基于策略π的行动的处理(S34的处理),但不限于此。例如,也可以从车辆VC1发送通过S32a的处理取得的数据,在数据解析中心130中使用被发送来的数据来决定行动a,向车辆VC1发送所决定的行动。
·作为车辆用控制系统,不限于由控制装置70和数据解析中心130构成的系统。例如,也可以使用用户的便携终端来代替数据解析中心130。另外,也可以通过控制装置70以及数据解析中心130和便携终端构成车辆用控制系统。这例如能够通过便携终端执行S34的处理来实现。
“关于执行装置”
·作为执行装置,不限于具备CPU72(112、132)和ROM74(114、134)来执行软件处理的装置。例如,也可以具备对在上述实施方式中执行的软件处理的至少一部分进行处理的例如ASIC等的专用的硬件电路。即,执行装置是以下的(a)~(c)中的任一结构即可。(a)具备按照程序执行全部的上述处理的处理装置和存储程序的ROM等的程序保存装置。(b)具备按照程序来执行上述处理的一部分的处理装置以及程序保存装置、和执行其余的处理的专用的硬件电路。(c)具备执行全部的上述处理的专用的硬件电路。在此,具备处理装置和程序保存装置的软件执行装置、专用的硬件电路也可以是多个。即,上述处理通过具备一个或者多个软件执行装置和一个或者多个专用的硬件电路中的至少一方的处理电路(processing circuitry)执行即可。程序保存装置即计算机可读介质包括通用或者专用的能够由计算机访问的所有能够利用的介质。
“关于存储装置”
·在上述实施方式中,使存储关系规定数据DR的存储装置和存储学习用程序74b、114a、控制程序74a的存储装置(ROM74、114、134)为不同的存储装置,但不限于此。
“关于内燃机”
·作为内燃机,不限于具备向进气通路12喷射燃料的端口喷射阀来作为燃料喷射阀的内燃机,既可以是具备向燃烧室24直接喷射燃料的缸内喷射阀的内燃机,另外,例如也可以具备端口喷射阀和缸内喷射阀这两方的内燃机。
·作为内燃机,不限于火花点火式内燃机,例如也可以是使用轻油等来作为燃料的压缩着火式内燃机等。
“关于推力生成装置”
·作为搭载于车辆的推力生成装置,不限于内燃机,例如也可以如混合动力车那样为内燃机和旋转电机。另外,例如也可以如电动汽车、燃料电池车那样推力生成装置仅为旋转电机。

Claims (5)

1.一种车辆用控制数据的生成方法,包括:
在存储装置存储有对车辆的状态和作为与搭载于所述车辆的电子设备的操作有关的变量的行动变量之间的关系进行规定的关系规定数据的状态下,
处理电路执行对所述电子设备进行操作的操作处理,
所述处理电路执行取得作为表示所述车辆所位于的区域的变量的区域变量、和基于传感器的检测值的所述车辆的状态的取得处理,
所述处理电路基于通过所述取得处理取得的所述车辆的状态,执行给与奖励的奖励算出处理,所述奖励算出处理是在所述车辆的特性满足预定基准的情况下所给与的所述奖励比所述车辆的特性不满足所述预定基准的情况下所给与的所述奖励大的处理,以及
所述处理电路执行更新处理,所述更新处理是使用通过所述取得处理取得的所述车辆的状态、所述电子设备的操作中所使用了的所述行动变量的值以及与所述电子设备的操作对应的所述奖励来作为向预先确定的更新映射的输入,对所述关系规定数据进行更新的处理,
所述更新映射是输出以使按照所述关系规定数据操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据的映射,
所述奖励算出处理包括变更处理,所述变更处理是相对于在所述区域变量的值为第1值的情况下所述车辆的特性为预定特性时所给与的所述奖励,变更在所述区域变量的值为第2值的情况下所述车辆的特性为所述预定特性时所给予的奖励的处理,
所述预定基准包括与加速器响应有关的基准,
所述奖励算出处理包括在满足与所述加速器响应有关的所述基准的情况下给与比不满足与所述加速器响应有关的所述基准的情况下的奖励大的奖励的第1处理,
所述区域变量是表示是否为市街地的变量,根据是否为市街地,对与所述车辆的状态相应的所述行动变量分别进行了学习,在为市街地时,缓和对于所述加速器响应的基准。
2.根据权利要求1所述的车辆用控制数据的生成方法,
所述区域变量包括对根据平均车速区分的区域进行识别的值,
所述预定基准还包括与能量利用效率有关的基准,
所述奖励算出处理还包括在满足与所述能量利用效率有关的所述基准的情况下给与比不满足与所述能量利用效率有关的所述基准的情况下的奖励大的奖励的第2处理,
所述变更处理包括如下处理:对所述第1处理和所述第2处理中的至少一个处理进行变更,以使得在所述平均车速低的区域的情况下,相比于所述平均车速高的区域的情况,在提高所述能量利用效率会获得更大奖励这一方面是有利的。
3.根据权利要求1或者2所述的车辆用控制数据的生成方法,还包括:
所述处理电路执行如下处理:基于通过所述更新处理更新后的所述关系规定数据,对所述车辆的状态和使所述期待收益最大化的所述行动变量的值进行关联,由此生成使用所述车辆的状态作为输入而输出使所述期待收益最大化的所述行动变量的值的控制用映射数据。
4.一种车辆用控制装置,
具备权利要求1或者2所述的车辆用控制数据的生成方法中的所述存储装置和所述处理电路,
所述操作处理包括基于所述关系规定数据来按照与所述车辆的状态相应的行动变量的值对所述电子设备进行操作的处理。
5.根据权利要求4所述的车辆用控制装置,
所述处理电路包括搭载于所述车辆的第1执行装置和不同于车载装置的第2执行装置,
所述第1执行装置构成为至少执行所述取得处理和所述操作处理,
所述第2执行装置构成为至少执行所述更新处理。
CN202110002606.9A 2020-01-09 2021-01-04 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置 Active CN113103971B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020002031A JP7331704B2 (ja) 2020-01-09 2020-01-09 車両用制御データの生成方法、車両用制御装置、および車両用制御システム
JP2020-002031 2020-01-09

Publications (2)

Publication Number Publication Date
CN113103971A CN113103971A (zh) 2021-07-13
CN113103971B true CN113103971B (zh) 2023-11-21

Family

ID=76709260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110002606.9A Active CN113103971B (zh) 2020-01-09 2021-01-04 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置

Country Status (3)

Country Link
US (1) US11745746B2 (zh)
JP (1) JP7331704B2 (zh)
CN (1) CN113103971B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6744597B1 (ja) * 2019-10-18 2020-08-19 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP7243642B2 (ja) * 2020-01-09 2023-03-22 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP7331704B2 (ja) 2020-01-09 2023-08-23 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、および車両用制御システム
JP7287287B2 (ja) 2020-01-09 2023-06-06 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
CN115891871B (zh) * 2022-11-16 2024-05-17 阿维塔科技(重庆)有限公司 车辆座舱的控制方法、装置及计算机可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002251599A (ja) * 2001-02-23 2002-09-06 Yamaha Motor Co Ltd 進化的手法による最適解探索装置、進化的手法による制御対象の制御装置及び進化的手法による最適解探索プログラム
JP2003049703A (ja) * 2001-08-07 2003-02-21 Mazda Motor Corp 車両開発データ取得用サーバ、車両開発データ取得方法、及び、車両開発データ取得用プログラム
CN101235756A (zh) * 2007-01-29 2008-08-06 株式会社电装 燃料喷射压力控制器
CN101725422A (zh) * 2008-10-29 2010-06-09 本田技研工业株式会社 多种燃料发动机的燃料喷射控制装置
JP2011132906A (ja) * 2009-12-25 2011-07-07 Mitsubishi Heavy Ind Ltd Dpfの再生制御装置
DE102012215756A1 (de) * 2012-09-05 2014-03-06 Robert Bosch Gmbh Verfahren und Anordnung zum Erstellen eines Zündwinkel-Kennfeldes für einen Verbrennungsmotor mit mindestens einem Zylinder
CN104675529A (zh) * 2013-11-26 2015-06-03 通用汽车环球科技运作有限责任公司 诊断补偿进气气流限制的节气门面积校正错误的系统和方法
CN107690522A (zh) * 2015-05-05 2018-02-13 瓦锡兰芬兰有限公司 操作内燃活塞发动机的方法、用于控制内燃活塞发动机的操作的控制系统以及内燃活塞发动机
CN107914703A (zh) * 2016-10-11 2018-04-17 福特全球技术公司 在混合动力车辆中使发动机启动时间适应于驾驶员激进度
CN107956575A (zh) * 2016-10-17 2018-04-24 丰田自动车株式会社 设备控制装置

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2974440B2 (ja) 1991-03-22 1999-11-10 株式会社日立製作所 自動車総合制御装置
US5532929A (en) 1992-12-16 1996-07-02 Toyota Jidosha Kabushiki Kaisha Apparatus for controlling vehicle driving power
JP3071333B2 (ja) 1993-02-26 2000-07-31 トヨタ自動車株式会社 車両の駆動力制御装置
JPH10254505A (ja) 1997-03-14 1998-09-25 Toyota Motor Corp 自動制御装置
EP1033637A3 (en) 1999-03-02 2001-05-02 Yamaha Hatsudoki Kabushiki Kaisha Method and apparatus for optimizing overall characteristic of device, using heuristic method
JP2000250604A (ja) 1999-03-02 2000-09-14 Yamaha Motor Co Ltd 特性最適化方法における最適化の協調方法
WO2001007768A1 (fr) 1999-07-28 2001-02-01 Hitachi, Ltd. Procede et appareil pour papillon commande par moteur, automobile, procede de mesure de la temperature d'un moteur pour la commande du papillon et procede de mesure de la temperature du moteur
JP2002322934A (ja) 2001-04-26 2002-11-08 Toyota Motor Corp 内燃機関の吸気制御装置
US6654677B2 (en) 2001-09-18 2003-11-25 Visteon Global Technologies, Inc. Method and system for providing vehicle control to a driver
JP4005483B2 (ja) 2002-11-20 2007-11-07 日産自動車株式会社 車線逸脱防止装置
JP4348965B2 (ja) 2003-02-25 2009-10-21 マツダ株式会社 自動変速機の変速制御装置
ES2286958B1 (es) 2005-07-11 2008-09-01 Honda Motor Co., Ltd Sistema de control de vehiculo, sistema de control de transmision continuamente variable y metodo.
US20080249667A1 (en) * 2007-04-09 2008-10-09 Microsoft Corporation Learning and reasoning to enhance energy efficiency in transportation systems
JP2009019523A (ja) 2007-07-10 2009-01-29 Honda Motor Co Ltd 内燃機関の制御装置
JP4930389B2 (ja) 2008-01-18 2012-05-16 三菱自動車工業株式会社 空燃比制御装置及び空燃比制御方法
US8626565B2 (en) * 2008-06-30 2014-01-07 Autonomous Solutions, Inc. Vehicle dispatching method and system
WO2010048146A1 (en) 2008-10-20 2010-04-29 Carnegie Mellon University System, method and device for predicting navigational decision-making behavior
US8352152B2 (en) 2009-02-10 2013-01-08 Honeywell International Inc. System, method, apparatus and computer program product for providing improved engine control
JP4975158B2 (ja) 2010-11-08 2012-07-11 本田技研工業株式会社 プラントの制御装置
US9090255B2 (en) * 2012-07-12 2015-07-28 Honda Motor Co., Ltd. Hybrid vehicle fuel efficiency using inverse reinforcement learning
JP6312618B2 (ja) 2015-03-13 2018-04-18 日立オートモティブシステムズ株式会社 内燃機関の制御装置及び異常燃焼検出方法
GB2539873B (en) * 2015-06-12 2017-11-15 Jaguar Land Rover Ltd Automated climate control system
JP6026612B2 (ja) 2015-09-22 2016-11-16 本田技研工業株式会社 車両用内燃機関の制御装置
CN105527963B (zh) * 2015-12-23 2019-01-25 奇瑞汽车股份有限公司 侧方位停车方法及系统
US10061316B2 (en) * 2016-07-08 2018-08-28 Toyota Motor Engineering & Manufacturing North America, Inc. Control policy learning and vehicle control method based on reinforcement learning without active exploration
JP6253000B1 (ja) 2016-09-14 2017-12-27 マツダ株式会社 車両の制御装置
JP6253001B1 (ja) 2016-09-29 2017-12-27 マツダ株式会社 車両の制御装置
US9989964B2 (en) 2016-11-03 2018-06-05 Mitsubishi Electric Research Laboratories, Inc. System and method for controlling vehicle using neural network
JP6695266B2 (ja) 2016-12-09 2020-05-20 日立オートモティブシステムズ株式会社 内燃機関の異常燃焼検出装置
US10235881B2 (en) * 2017-07-28 2019-03-19 Toyota Motor Engineering & Manufacturing North America, Inc. Autonomous operation capability configuration for a vehicle
US10656644B2 (en) * 2017-09-07 2020-05-19 Tusimple, Inc. System and method for using human driving patterns to manage speed control for autonomous vehicles
US10829066B2 (en) 2017-09-22 2020-11-10 Zoox, Inc. Fail operational vehicle power supply
US10997491B2 (en) * 2017-10-04 2021-05-04 Huawei Technologies Co., Ltd. Method of prediction of a state of an object in the environment using an action model of a neural network
US20190113920A1 (en) * 2017-10-18 2019-04-18 Luminar Technologies, Inc. Controlling an autonomous vehicle using model predictive control
US10732625B2 (en) * 2017-12-04 2020-08-04 GM Global Technology Operations LLC Autonomous vehicle operations with automated assistance
JP6919997B2 (ja) 2018-02-06 2021-08-18 株式会社日立製作所 制御装置、制御方法、および制御プログラム
JP2019144748A (ja) 2018-02-19 2019-08-29 株式会社デンソー 情報処理システム、車載制御装置、及び情報処理装置
US10732639B2 (en) * 2018-03-08 2020-08-04 GM Global Technology Operations LLC Method and apparatus for automatically generated curriculum sequence based reinforcement learning for autonomous vehicles
US20190360421A1 (en) 2018-05-24 2019-11-28 GM Global Technology Operations LLC Method to evaluate the instantaneous fuel to torque ice efficiency status
US10703370B2 (en) 2018-08-24 2020-07-07 Ford Global Technologies, Llc Vehicle action control
JP6547991B1 (ja) 2019-02-20 2019-07-24 トヨタ自動車株式会社 触媒温度推定装置、触媒温度推定システム、データ解析装置、および内燃機関の制御装置
JP6590097B1 (ja) 2019-02-20 2019-10-16 トヨタ自動車株式会社 Pm量推定装置、pm量推定システム、データ解析装置、内燃機関の制御装置、および受信装置
JP6547992B1 (ja) 2019-04-18 2019-07-24 トヨタ自動車株式会社 酸素吸蔵量推定装置、酸素吸蔵量推定システム、内燃機関の制御装置、データ解析装置、および酸素吸蔵量推定方法
JP6665961B1 (ja) 2019-08-01 2020-03-13 トヨタ自動車株式会社 内燃機関の状態検出システム、データ解析装置、及び車両
JP2021032114A (ja) 2019-08-22 2021-03-01 トヨタ自動車株式会社 車両用学習制御システム、車両用制御装置、および車両用学習装置
US11420655B2 (en) 2019-09-26 2022-08-23 Hrl Laboratories, Llc System and method for safety and efficacy override of an autonomous system
JP6705544B1 (ja) 2019-10-18 2020-06-03 トヨタ自動車株式会社 車両用制御装置、車両用制御システム、および車両用学習装置
JP6809587B1 (ja) 2019-10-18 2021-01-06 トヨタ自動車株式会社 車両用制御装置
JP6744598B1 (ja) 2019-10-18 2020-08-19 トヨタ自動車株式会社 車両用制御システム、車両用制御装置、および車両用学習装置
JP6705546B1 (ja) 2019-10-18 2020-06-03 トヨタ自動車株式会社 車両用制御装置、車両用制御システム、および車両用学習装置
US20210188276A1 (en) 2019-12-20 2021-06-24 Toyota Jidosha Kabushiki Kaisha Vehicle control data generating method, vehicle controller, vehicle control system, and vehicle learning device
JP7207290B2 (ja) * 2019-12-23 2023-01-18 トヨタ自動車株式会社 車両用制御装置、車両用制御システム、車両用学習装置、および車両用学習方法
JP7331704B2 (ja) 2020-01-09 2023-08-23 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、および車両用制御システム
JP7287287B2 (ja) 2020-01-09 2023-06-06 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP7243642B2 (ja) 2020-01-09 2023-03-22 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002251599A (ja) * 2001-02-23 2002-09-06 Yamaha Motor Co Ltd 進化的手法による最適解探索装置、進化的手法による制御対象の制御装置及び進化的手法による最適解探索プログラム
JP2003049703A (ja) * 2001-08-07 2003-02-21 Mazda Motor Corp 車両開発データ取得用サーバ、車両開発データ取得方法、及び、車両開発データ取得用プログラム
CN101235756A (zh) * 2007-01-29 2008-08-06 株式会社电装 燃料喷射压力控制器
CN101725422A (zh) * 2008-10-29 2010-06-09 本田技研工业株式会社 多种燃料发动机的燃料喷射控制装置
JP2011132906A (ja) * 2009-12-25 2011-07-07 Mitsubishi Heavy Ind Ltd Dpfの再生制御装置
DE102012215756A1 (de) * 2012-09-05 2014-03-06 Robert Bosch Gmbh Verfahren und Anordnung zum Erstellen eines Zündwinkel-Kennfeldes für einen Verbrennungsmotor mit mindestens einem Zylinder
CN104675529A (zh) * 2013-11-26 2015-06-03 通用汽车环球科技运作有限责任公司 诊断补偿进气气流限制的节气门面积校正错误的系统和方法
CN107690522A (zh) * 2015-05-05 2018-02-13 瓦锡兰芬兰有限公司 操作内燃活塞发动机的方法、用于控制内燃活塞发动机的操作的控制系统以及内燃活塞发动机
CN107914703A (zh) * 2016-10-11 2018-04-17 福特全球技术公司 在混合动力车辆中使发动机启动时间适应于驾驶员激进度
CN107956575A (zh) * 2016-10-17 2018-04-24 丰田自动车株式会社 设备控制装置

Also Published As

Publication number Publication date
CN113103971A (zh) 2021-07-13
US20210213963A1 (en) 2021-07-15
JP2021110277A (ja) 2021-08-02
JP7331704B2 (ja) 2023-08-23
US11745746B2 (en) 2023-09-05

Similar Documents

Publication Publication Date Title
CN113103971B (zh) 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置
CN112682197B (zh) 车辆用控制数据的生成方法、车辆用控制装置和控制系统
CN113006951B (zh) 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置
US11453375B2 (en) Vehicle controller, vehicle control system, vehicle learning device, vehicle control method, and memory medium
CN112682182B (zh) 车辆用控制装置、车辆用控制系统以及车辆控制方法
JP6744598B1 (ja) 車両用制御システム、車両用制御装置、および車両用学習装置
JP7287287B2 (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
CN113266479B (zh) 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置
CN112682184A (zh) 车辆用控制装置、车辆用控制系统以及车辆控制方法
CN113264034B (zh) 车辆用控制数据的生成方法、控制装置、系统及学习装置
CN113090400B (zh) 车辆用控制装置及控制系统、车辆用学习装置及学习方法、车辆用控制方法以及存储介质
CN113217204B (zh) 车辆控制方法、车辆用控制装置以及服务器
CN113266481A (zh) 车辆控制方法、车辆用控制装置以及服务器
JP7205460B2 (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
US11235781B2 (en) Vehicle control system, vehicle controller, vehicle learning device, vehicle control method, and memory medium
TW202128467A (zh) 控制車輛的方法、車輛控制器、和伺服器
JP2021067262A (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP2021067259A (ja) 車両用制御システム、車両用制御装置、および車両用学習装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant