CN112682204A - 车辆用控制装置、控制系统、学习装置和方法及存储介质 - Google Patents

车辆用控制装置、控制系统、学习装置和方法及存储介质 Download PDF

Info

Publication number
CN112682204A
CN112682204A CN202011090423.9A CN202011090423A CN112682204A CN 112682204 A CN112682204 A CN 112682204A CN 202011090423 A CN202011090423 A CN 202011090423A CN 112682204 A CN112682204 A CN 112682204A
Authority
CN
China
Prior art keywords
vehicle
range
value
variable
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011090423.9A
Other languages
English (en)
Other versions
CN112682204B (zh
Inventor
桥本洋介
片山章弘
大城裕太
杉江和纪
冈尚哉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2019191095A external-priority patent/JP6744598B1/ja
Priority claimed from JP2019231144A external-priority patent/JP7207289B2/ja
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN112682204A publication Critical patent/CN112682204A/zh
Application granted granted Critical
Publication of CN112682204B publication Critical patent/CN112682204B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/04Conjoint control of vehicle sub-units of different type or different function including control of propulsion units
    • B60W10/06Conjoint control of vehicle sub-units of different type or different function including control of propulsion units including control of combustion engines
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/04Monitoring the functioning of the control system
    • B60W50/045Monitoring control system parameters
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D29/00Controlling engines, such controlling being peculiar to the devices driven thereby, the devices being other than parts or accessories essential to engine operation, e.g. controlling of engines by signals external thereto
    • F02D29/02Controlling engines, such controlling being peculiar to the devices driven thereby, the devices being other than parts or accessories essential to engine operation, e.g. controlling of engines by signals external thereto peculiar to engines driving vehicles; peculiar to engines driving variable pitch propellers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • G07C5/08Registering or indicating performance data other than driving, working, idle, or waiting time, with or without registering driving, working, idle or waiting time
    • G07C5/0841Registering performance data
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0062Adapting control system settings
    • B60W2050/0075Automatic parameter input, automatic initialising or calibrating means
    • B60W2050/0083Setting, resetting, calibration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/06Combustion engines, Gas turbines
    • B60W2510/0604Throttle position
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/10Accelerator pedal position
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2710/00Output or target parameters relating to a particular sub-units
    • B60W2710/06Combustion engines, Gas turbines
    • B60W2710/0605Throttle position
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2710/00Output or target parameters relating to a particular sub-units
    • B60W2710/06Combustion engines, Gas turbines
    • B60W2710/0616Position of fuel or air injector
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D2200/00Input parameters for engine control
    • F02D2200/02Input parameters for engine control the parameters being related to the engine
    • F02D2200/04Engine intake system parameters
    • F02D2200/0404Throttle position
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D2200/00Input parameters for engine control
    • F02D2200/50Input parameters for engine control said parameters being related to the vehicle or its components

Abstract

本公开提供车辆用控制装置、车辆用控制系统、车辆用控制方法、车辆用学习装置、车辆用学习方法以及存储介质。更新处理将通过状态取得处理所取得的车辆的状态、电子设备的操作中所使用了的行动变量的值、和与该操作对应的奖励作为向预先确定的更新映射的输入,更新关系规定数据。变更处理在车辆的劣化程度为预定程度以上的情况下,与所述劣化程度低于预定程度的情况相比,将通过操作处理采用行动变量的值中的、使关于奖励的期待收益最大化的值以外的值的范围向扩大该范围侧变更。

Description

车辆用控制装置、控制系统、学习装置和方法及存储介质
技术领域
本公开涉及车辆用控制装置、车辆用控制系统、车辆用学习装置以及车辆用学习方法。
背景技术
例如日本特开2016-6327号公报中记载了一种控制装置,该控制装置基于将加速踏板的操作量用过滤器进行处理得到的值,操作作为搭载于车辆的内燃机的操作部的节气门。
上述过滤器需要根据加速踏板的操作量将搭载于车辆的内燃机的节气门的操作量设定为适当的操作量。由此,过滤器的适配需要熟练者花费许多工时。
如此,以往在与车辆的状态相应的车辆内的电子设备的操作量等的适配中,熟练者花费了许多工时。
发明内容
以下,对上述本公开的例子(方案)进行描述。
例1.一种车辆用控制装置,其具备执行装置以及存储装置,所述存储装置存储关系规定数据,所述关系规定数据规定车辆的状态与行动变量的关系,所述行动变量是与搭载于所述车辆的电子设备的操作有关的变量,所述执行装置构成为执行:状态取得处理,该状态取得处理基于每次的传感器的检测值,取得每次的所述车辆的状态;操作处理,该操作处理基于所述行动变量的值,操作所述电子设备,所述行动变量的值由所述关系规定数据和通过所述状态取得处理所取得的所述车辆的状态来确定;奖励(奖赏)计算处理,该奖励计算处理基于通过所述状态取得处理所取得的所述车辆的状态,在所述车辆的特性满足基准的情况下,与所述车辆的特性不满足所述基准的情况相比,给予较大的奖励;更新处理,该更新处理将通过所述状态取得处理所取得的所述车辆的状态、所述电子设备的操作中所使用了的所述行动变量的值、和与该操作对应的所述奖励作为向预先确定的更新映射的输入,更新所述关系规定数据;劣化变量取得处理,该劣化变量取得处理取得表示所述车辆的劣化程度的变量、即劣化变量;以及变更处理,该变更处理在所述车辆的劣化程度为预定程度以上的情况下,与所述劣化程度低于预定程度的情况相比,将收益(回报)非最大化范围向该范围扩大侧变更,所述收益非最大化范围是所述操作处理采用使关于所述奖励的期待收益最大化的值以外的值作为所述行动变量的范围,所述更新映射输出以使按照所述关系规定数据来操作所述电子设备的情况下的所述期待收益增加的方式进行了更新的所述关系规定数据。
在上述构成中,通过计算伴随电子设备的操作的奖励,能够掌握通过该操作而获得怎样的奖励。而且,基于奖励,根据按照强化学习的更新映射,更新关系规定数据。由此,能够将车辆的状态与行动变量的关系设定为在车辆的行驶中适当的关系。因此,能够削减在将车辆的状态与行动变量的关系设定为在车辆的行驶中适当的关系时需要熟练者花费的工时。
在通过强化学习确定的使期待收益最大化的行动收敛的情况下,在将车辆的特性控制为作为目标的特性方面,比起不加选择地继续进行搜索,优选常态地选择使期待收益最大化的行动。但是,当车辆劣化时,使期待收益最大化的行动有可能发生变化。于是,在上述构成中,在车辆的劣化程度成为预定程度以上的情况下,与劣化程度低于预定程度的情况相比,使可采用使期待收益最大化的值以外的值的范围扩大。由此,能够通过强化学习发现对于劣化了的车辆而言更适当的行动变量的值。
此外,通过状态取得处理所取得的车辆的状态优选至少包括与劣化变量的值相比以更短时间发生变化的值。
例2.根据上述例1所述的车辆用控制装置,所述变更处理包括将所述收益非最大化范围从零扩大为比零大的范围的处理。
在上述构成中,在劣化程度低于预定程度的情况下,将采用使期待收益最大化的值以外的值的范围设为零。由此,能够抑制进行无用的搜索。
例3.根据上述例2所述的车辆用控制装置,所述劣化变量也是将根据与时间的经过具有正相关的量来对所述劣化程度低于预定程度的情况进行细分的变量,所述变更处理是随着所述时间的经过而将所述收益非最大化范围从第1范围经由第2范围变为第3范围的处理,所述第1范围是比所述第2范围和所述第3范围大的范围,所述第3范围是比所述第2范围大的范围,将所述范围向扩大该范围侧变更的所述变更处理是在所述车辆的劣化程度为预定程度以上的情况下将所述收益非最大化范围向从所述第2范围扩大为所述第3范围侧进行变更的处理。
在上述构成中,设想为即使车辆劣化了,使期待收益最大化的行动变量的值也不会相对于车辆劣化前的对应的值大幅地变化。鉴于此,在上述构成中,将第3范围设为比第1范围小的范围。由此,对于劣化了的车辆而言,能够提高仅限于有可能使期待收益最大化的行动变量的值进行搜索的可能性。由此,能够高效地进行搜索。
例4.一种车辆用控制系统,其具备上述例1~例3中任一项所述的车辆用控制装置中的所述执行装置以及所述存储装置,所述执行装置包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置,所述第1执行装置构成为至少执行所述状态取得处理和所述操作处理,所述第2执行装置构成为至少执行所述更新处理。
在上述构成中,由第2执行装置执行更新处理。由此,例如与第1执行装置执行更新处理的情况相比,能够减轻第1执行装置的运算负荷。
此外,第2执行装置是有别于车载装置的装置意味着第2执行装置不是车载装置。
例5.一种车辆用控制装置,其具备上述例4所述的车辆用控制系统中的所述第1执行装置。
例6.一种车辆用学习装置,其具备上述例4所述的车辆用控制系统中的所述第2执行装置。
例7.一种车辆用学习方法,其使计算机执行上述例1~例3中任一项所述的车辆用控制装置中的所述状态取得处理、所述操作处理、所述奖励计算处理、所述更新处理、所述劣化变量取得处理以及所述变更处理。
例8.一种车辆用控制方法,其通过执行装置以及存储装置执行上述例1~例3中任一项所述的各种处理。
例9.一种计算机可读取的存储介质,其存储有使执行装置以及存储装置执行上述例1~例3中任一项所述的各种处理的车辆用控制处理。
根据上述方法或者存储介质,能够取得与上述例1同样的作用效果。
附图说明
图1是表示第1实施方式涉及的控制装置及其驱动系统的图。
图2是表示该实施方式涉及的控制装置执行的处理的步骤的流程图。
图3是表示该实施方式涉及的控制装置执行的处理的步骤的流程图。
图4是表示该实施方式涉及的控制装置执行的处理的一部分的详细步骤的流程图。
图5是表示该实施方式涉及的控制装置执行的处理的步骤的流程图。
图6是表示本公开的第2实施方式涉及的车辆用控制系统的构成的图。
图7的(a)部分和(b)部分是表示图6的车辆用控制系统执行的处理的步骤的流程图。
具体实施方式
<第1实施方式>
以下,参照图1~图5,对车辆用控制装置的第1实施方式进行说明。
图1表示本实施方式涉及的车辆VC1的驱动系统以及控制装置的构成。
如图1所示,在内燃机10的进气通路12,从上游侧起依次设置有节气门14和燃料喷射阀16,被吸入到进气通路12的空气和从燃料喷射阀16喷射出的燃料随着进气门18的开阀而向由汽缸20和活塞22划分的燃烧室24流入。在燃烧室24内,燃料与空气的混合气伴随着点火装置26的火花放电而用于燃烧,通过燃烧产生的能量经由活塞22被转换为曲轴28的旋转能。用于了燃烧的混合气随着排气门30的开阀而作为排气(废气)向排气通路32排出。在排气通路32设置有作为净化排气的后处理装置的催化剂34。
变速装置50的输入轴52能够经由具备锁止离合器42的变矩器40以机械方式连结于曲轴28。变速装置50是使作为输入轴52的转速与输出轴54的转速之比的变速比(传动比、齿轮速比)可变的装置。在输出轴54上以机械方式连结有驱动轮60。
控制装置70将内燃机10作为控制对象,为了控制作为其控制量的转矩(torque)和/或排气成分比率等而操作节气门14、燃料喷射阀16以及点火装置26等内燃机10的操作部。另外,控制装置70将变矩器40作为控制对象,为了控制锁止离合器42的接合状态而操作锁止离合器42。另外,控制装置70将变速装置50作为控制对象,为了控制作为其控制量的变速比而操作变速装置50。此外,在图1中记载了节气门14、燃料喷射阀16、点火装置26、锁止离合器42以及变速装置50各自的操作信号MS1~MS5。
控制装置70为了进行控制量的控制,参照由空气流量计80检测的吸入空气量Ga和/或由节气门传感器82检测的节气门14的开度(节气门开度TA)、曲轴角传感器84的输出信号Scr。另外,控制装置70参照由加速器传感器88检测的加速踏板86的踏入量(加速器操作量PA)和/或由加速度传感器90检测的车辆VC1的前后方向的加速度Gx。另外,控制装置70参照检测驱动轮60的旋转角的车轮旋转传感器92的输出信号Sv。
控制装置70具备CPU72、ROM74、可电改写的非易失性存储器(存储装置76)以及外围电路78,它们能够经由局域网79进行通信。在此,外围电路78包括生成规定控制装置70内部的动作的时钟信号的电路、电源电路、复位(reset)电路等。
在ROM74中存储有控制程序74a以及学习程序74b。另一方面,在存储装置76中存储有关系规定数据DR,关系规定数据DR是规定加速器操作量PA与节气门开度TA的指令值(节气门开度指令值TA*)以及点火装置26的延迟量aop的关系的数据。在此,延迟量aop是相对于预先确定的基准点火正时的延迟量,基准点火正时是MBT点火正时和爆震临界点中的延迟侧的正时。MBT点火正时是获得最大转矩的点火正时(最大转矩点火正时)。另外,爆震临界点是在使用爆震临界高的高辛烷值燃料时能够在设想的最佳的条件下将爆震控制在能容许的等级以内的点火正时的提前界限值。另外,在存储装置76中存储有转矩输出映射数据DT。由转矩输出映射数据DT规定的转矩输出映射是以曲轴28的转速NE、填充(充气)效率η以及点火正时为输入并以转矩Trq为输出的映射。
图2表示本实施方式涉及的控制装置70执行的处理的步骤。图2所示的处理通过由CPU72例如按预定周期反复执行存储于ROM74的控制程序74a以及学习程序74b来实现。此外,以下利用开头附加有“S”的数字来表示各处理的步骤编号。
在图2所示的一系列处理中,首先,CPU72取得行驶距离RL(S10)。在此,行驶距离RL由CPU72基于车轮旋转传感器92的输出信号Sv算出。
接着,CPU72判定行驶距离RL是否在收敛判定值RLthL以下(S12)。而且,CPU72在判定为行驶距离RL在收敛判定值RLthL以下的情况下,对劣化标志Fd代入“1”(S14)。另一方面,CPU72在S12的处理中作出否定判定的情况下,判定行驶距离RL是否大于收敛判定值RLthL且小于劣化阈值RLthH(S16)。而且,CPU72在判定为行驶距离RL大于收敛判定值RLthL且小于劣化阈值RLthH的情况下(S16:是),对劣化标志Fd代入“2”(S18)。CPU72在S16的处理中作出否定判定的情况下,对劣化标志Fd代入“3”(S20)。
此外,CPU72在完成S14、S18、S20的处理的情况下,暂时结束图2所示的一系列处理。
图3表示本实施方式涉及的控制装置70执行的处理的步骤。图3所示的处理通过由CPU72例如按预定周期反复执行存储于ROM74的控制程序74a以及学习程序74b来实现。
在图3所示的一系列处理中,首先,CPU72取得包括加速器操作量PA的6个采样值“PA(1)、PA(2)、……PA(6)”的时间序列数据作为状态s(S30)。在此,构成时间序列数据的各采样值是在互不相同的定时(timing)采样得到的值。在本实施方式中,由按一定的采样周期采样的情况下的彼此在时间序列上相邻的6个采样值构成时间序列数据。
接着,CPU72按照关系规定数据DR确定的策略π,设定与通过S30的处理取得的状态s相应的包括节气门开度指令值TA*及延迟量aop的行动a(S32)。
在本实施方式中,关系规定数据DR是确定行动价值函数Q及策略π的数据。在本实施方式中,行动价值函数Q是与状态s及行动a的8维自变量相应的表示期待收益的值的表(table)形式的函数。另外,在被给出了状态s时,自变量成为被给出的状态s的行动价值函数Q中的期待收益的值成为最大的行动a称为贪婪行动(greedy action)。策略π确定在被给出了状态s时虽然优先选择贪婪行动但是也以预定的概率选择除此以外的行动a的规则。
详细而言,本实施方式涉及的行动价值函数Q的自变量可取的值的数量是根据人的见解等而削减了状态s及行动a的可取的值的全部组合中的一部分后的数量。即,例如像加速器操作量PA的时间序列数据中的彼此相邻的两个采样值中的一个成为加速器操作量PA的最小值、且另一个成为最大值这样的情况,不会是由人对加速踏板86的操作产生的,从而在加速器操作量PA的该组合中没有定义行动价值函数Q。在本实施方式中,通过基于人的见解等的降维,将定义行动价值函数Q的状态s的可取的值限制在小于等于10的4次方个,更优选为限制在小于等于10的3次方个。
接着,CPU72基于所设定的节气门开度指令值TA*以及延迟量aop,通过向节气门14输出操作信号MS1来操作节气门开度TA,并且通过向点火装置26输出操作信号MS3来操作点火正时(S34)。在此,在本实施方式中,例示将节气门开度TA反馈控制为节气门开度指令值TA*的情况。由此,即使节气门开度指令值TA*为同一值,操作信号MS1也可能成为互不相同的信号。另外,例如在被进行周知的爆震控制(KCS:Knock Control System)等的情况下,使基准点火正时延迟了延迟量aop后的值进一步通过KCS而被反馈校正得到的值被作为点火正时。在此,基准点火正时由CPU72根据曲轴28的转速NE以及填充效率η可变地设定。此外,转速NE由CPU72基于曲轴角传感器84的输出信号Scr算出。另外,填充效率η由CPU72基于转速NE以及吸入空气量Ga算出。
接着,CPU72取得内燃机10的转矩Trq、对于内燃机10的转矩指令值Trq*、以及加速度Gx(S36)。在此,CPU72通过将转速NE、填充效率η以及点火正时输入到转矩输出映射,计算转矩Trq。另外,CPU72根据加速器操作量PA设定转矩指令值Trq*。
接着,CPU72判定过渡标志F是否为“1”(S38)。过渡标志F在为“1”的情况下表示处于过渡运行时,在为“0”的情况下表示不处于过渡运行时。CPU72在判定为过渡标志F是“0”的情况下(S38:否),判定加速器操作量PA的每单位时间的变化量ΔPA的绝对值是否在预定量ΔPAth以上(S40)。在此,变化量ΔPA例如作为在S40的处理的执行定时的最新的加速器操作量PA与相对于该定时的单位时间前的加速器操作量PA之差即可。
CPU72在判定为变化量ΔPA的绝对值在预定量ΔPAth以上的情况下(S40:是),对过渡标志F代入“1”(S42)。
相对于此,CPU72在判定为过渡标志F是“1”的情况下(S38:是),判定从S42的处理的执行定时起是否经过了预定期间(S44)。在此,预定期间作为到加速器操作量PA的每单位时间的变化量ΔPA的绝对值变为作为比预定量ΔPAth小的值的规定量以下的状态持续预定时间为止的期间。CPU72在判定为从S42的处理的执行定时起经过了预定期间的情况下(S44:是),对过渡标志F代入“0”(S46)。
CPU72在S42、S46的处理完成的情况下,作为一个情节(episode)结束,判定劣化标志Fd是否为“1”或“3”(S48)。而且,CPU72在判定为劣化标志Fd是“1”或“3”的情况下(S48:是),通过强化学习来更新行动价值函数Q(S50)。
图4表示S50的处理的详情。
在图4所示的一系列处理中,CPU72取得包括最近刚结束的情节中的转矩指令值Trq*、转矩Trq以及加速度Gx的3个采样值的组的时间序列数据、和状态s及行动a的时间序列数据(S60)。在此,关于最近的情节的期间,在继图3的S42的处理之后进行图4的S60的处理的情况下是过渡标志F持续成为“0”的期间,在继图3的S46的处理之后进行图4的S60的处理的情况下是过渡标志F持续成为“1”的期间。
在图4中,括号中的数字不同的变量表示是在互不相同的采样定时的变量的值。例如,转矩指令值Trq*(1)和转矩指令值Trq*(2)的采样定时互不相同。另外,将属于最近的情节的行动a的时间序列数据定义为行动集合Aj,将属于该情节的状态s的时间序列数据定义为状态集合Sj。
接着,CPU72判定属于最近的情节的任意的转矩Trq与转矩指令值Trq*之差的绝对值在规定量ΔTrq以下这一意思的条件(i)、和加速度Gx在下限值GxL以上且在上限值GxH以下这一意思的条件(ii)的逻辑与(AND)是否为真(S62)。
在此,CPU72根据情节开始时的加速器操作量PA的每单位时间的变化量ΔPA,可变地设定规定量ΔTrq。即,CPU72在变化量ΔPA的绝对值大的情况下设为是关于过渡时的情节,与是稳态(定常)时的情况相比,将规定量ΔTrq设定为较大的值。
另外,CPU72根据情节开始时的加速器操作量PA的每单位时间的变化量ΔPA,可变地设定下限值GxL。即,CPU72在是关于过渡时的情节且变化量ΔPA为正的情况下,与关于稳态时的情节的情况相比,将下限值GxL设定为较大的值。另外,CPU72在是关于过渡时的情节且变化量ΔPA为负的情况下,与关于稳态时的情节的情况相比,将下限值GxL设定为较小的值。
另外,CPU72根据情节开始时的加速器操作量PA的每单位时间的变化量ΔPA,可变地设定上限值GxH。即,CPU72在是关于过渡时的情节且变化量ΔPA为正的情况下,与关于稳态时的情节的情况相比,将上限值GxH设定为较大的值。另外,CPU72在是关于过渡时的情节且变化量ΔPA为负的情况下,与关于稳态时的情节的情况相比,将上限值GxH设定为较小的值。
CPU72在判定为条件(i)与条件(ii)的逻辑与是真的情况下(S62:是),对奖励r代入“10”(S64)。另一方面,在判定为逻辑与是假的情况下(S62:否),对奖励r代入“-10”(S66)。S62~S66的处理是在满足关于驾驶性能(driveability)的基准的情况下比不满足该基准的情况下给予较大的奖励的处理。CPU72在S64、S66的处理完成的情况下,将图1所示的存储于存储装置76的关系规定数据DR更新。在本实施方式中,在关系规定数据DR的更新处理中使用ε软同策略型蒙特卡洛方法(ε-soft on-policy type Monte Carlo method)。
即,CPU72对由通过上述S60的处理读取到的各状态和与各状态对应的行动的组所确定的收益R(Sj,Aj)分别加上奖励r(S68)。在此,“R(Sj,Aj)”是对将状态集合Sj的元素之一作为状态并且将行动集合Aj的元素之一作为行动的收益R进行了总括的记载。接着,将由通过上述S60的处理读取到的各状态和对应的行动的组所确定的收益R(Sj,Aj)的每一个进行平均化。将收益R(Sj,Aj)的平均化后的值代入到对应的行动价值函数Q(Sj,Aj)(S70)。在此,平均化作为如下处理即可:将通过S68的处理计算出的收益R除以对进行了S68的处理的次数加上预定数得到的数。此外,收益R的初始值设为对应的行动价值函数Q的初始值即可。
接着,CPU72对于通过上述S60的处理读取到的状态,分别将作为对应的行动价值函数Q(Sj,A)中的、期待收益成为最大值时的节气门开度指令值TA*以及延迟量aop的组的行动代入到行动Aj*(S72)。在此,“A”表示可取的任意的行动。此外,行动Aj*是根据通过上述S60的处理读取到的状态的种类而彼此成为其他值的行动,但在本说明书中,为了对记载进行简化,涉及状态的所有种类而用同一标号描述了行动Aj*。
接着,CPU72对于通过上述S60的处理读取到的状态的每一个,将对应的策略π(Aj|Sj)更新(S74)。即,若将行动的总数设为“|A|”,则将通过S72选择出的行动Aj*的选择概率设为“(1-ε)+ε/|A|”。另外,将行动Aj*以外的“|A|-1”个行动的选择概率分别设为“ε/|A|”。S74的处理是基于通过S70的处理而更新了的行动价值函数Q的处理。所以,由此,规定状态s与行动a的关系的关系规定数据DR将会以使收益R增加的方式被更新。
此外,CPU72在S74的处理完成的情况下,暂时结束图4所示的一系列处理。
回到图3,CPU72在S50的处理完成的情况下或在S40、S44、S48的处理中作出否定判定的情况下,暂时结束图3所示的一系列处理。此外,S30~S46的处理通过由CPU72执行控制程序74a来实现,S48、S50的处理通过由CPU72执行学习程序74b来实现。另外,在车辆VC1出厂时的关系规定数据DR设为一边在测试台(test bench)上对车辆的行驶进行模拟等一边执行与图3所示的处理同样的处理从而预先被学习过的数据。
图5表示控制装置70执行的处理的步骤。图5所示的处理通过由CPU72例如按预定周期反复执行存储于ROM74的学习程序74b来实现。
在图5所示的一系列处理中,首先,CPU72判定是否为劣化标志Fd从“1”切换成了“2”的时刻(S80)。而且,CPU72在判定为是劣化标志Fd从“1”切换成了“2”的时刻的情况下(S80:是),为了将贪婪行动以外的行动被选择的概率设为零,对“ε”代入零(S82)。
另一方面,CPU72在S80的处理中作出否定判定的情况下,判定是否为劣化标志Fd从“2”切换成了“3”的时刻(S83)。而且,CPU72在判定为是劣化标志Fd从“2”切换成了“3”的时刻的情况下(S83:是),选择一个状态s,状态s被定义为行动价值函数Q的自变量(S84)。接着,CPU72对贪婪行动ag代入将通过S84的处理选择出的状态s作为自变量的值的行动价值函数Q中的、该Q的值成为最大时的行动a(S86)。然后,CPU72将在通过S84的处理选择出的状态s下可取的行动a的集合As限制为与贪婪行动ag之差的绝对值在预定值δ以下的行动a(S88)。在此,“与贪婪行动ag之差的绝对值在预定值δ以下的行动”指的是满足以下条件的行动a。即,与贪婪行动ag对应的节气门开度指令值TA*和与行动a对应的节气门开度指令值TA*之差的绝对值在对节气门开度指令值TA*可取的值的范围的大小乘以预定值δ得到的值以下。并且,与贪婪行动ag对应的延迟量aop和与行动a对应的延迟量aop之差的绝对值在对延迟量aop可取的值的范围的大小乘以预定值δ得到的值以下。它们两个条件成立的行动a是“与贪婪行动ag之差的绝对值在预定值δ以下的行动”。即,在将节气门开度指令值TA*可取的值的范围的大小设为TAmax,并设“0<δ<1”时,S88的处理以使节气门开度指令值TA*与贪婪行动所示的值(与贪婪行动ag对应的节气门开度指令值TA*)之差的绝对值成为“δ·TAmax”以下的方式进行限制。另外,CPU72在将延迟量aop可取的值的范围的大小设为aopmax时,S88的处理以使延迟量aop与贪婪行动所示的值(与贪婪行动ag对应的延迟量aop)之差的绝对值成为“δ·aopmax”以下的方式进行限制。
CPU72在S88的处理完成的情况下,判定是否已通过S84的处理选择了被定义为行动价值函数Q的自变量的全部状态s(S90)。CPU72在判定为有尚未选择的状态s的情况下(S90:否),回到S84的处理。
相对于此,CPU72在判定为已通过S84的处理选择了全部的情况下(S90:是)或在S82的处理完成的情况下、或在S83的处理中作出否定判定的情况下,暂时结束图5所示的一系列处理。
在此,对本实施方式的作用以及效果进行说明。
CPU72随着由用户对加速踏板86的操作,取得加速器操作量PA的时间序列数据,并按照策略π,设定包括节气门开度指令值TA*以及延迟量aop的行动a。在此,CPU72基本上基于在关系规定数据DR中所规定的行动价值函数Q,选择使期待收益成为最大的行动a。但是,CPU72通过以预定的概率“ε-ε|A|”选择使期待收益最大化的行动a以外的行动,进行使期待收益最大化的行动a的搜索。由此,能够随着由用户对车辆VC1的驾驶,通过强化学习来更新关系规定数据DR。因此,无需使熟练者花费的工时过大就能够将与加速器操作量PA相应的节气门开度指令值TA*以及延迟量aop设定为在车辆VC1的行驶中适当的值。
通过这样,在车辆VC1出厂后,到行驶距离RL超过收敛判定值RLthL之前,关系规定数据DR一直随着车辆VC1的行驶而被更新。而且,在行驶距离RL变为收敛判定值RLthL以上的情况下,作为关系规定数据DR收敛于在车辆VC1的行驶中最佳的值而将“ε”设为零。即,通过暂时禁止对行动的搜索,将策略π变更为仅取贪婪行动的策略。
在此,例如即使对应的节气门开度TA相同,在随着车辆VC1的劣化而堆积物堆积于节气门14和/或进气通路12的情况下,进气通路12的流路截面面积也会变小。由此,吸入空气量Ga减少。因此,在行驶距离RL大幅超过收敛判定值RLthL且车辆VC1的劣化进展的情况下,可能会产生节气门开度指令值TA*的偏差。即,根据加速器操作量PA的时间序列数据使期待收益最大化的节气门开度指令值TA*可能会偏离于由在行驶距离RL成为收敛判定值RLthL的时刻(时间点)的关系规定数据DR所规定的节气门开度指令值TA*的值。
于是,本实施方式涉及的CPU72在车辆VC1的行驶距离RL成为劣化阈值RLthH以上的情况下,使采用贪婪行动以外的行动的概率“ε-ε|A|”大于零。即,CPU72在由于车辆VC1的行驶距离RL增大而暂时禁止进行将节气门开度指令值TA*以及点火正时的延迟量aop设定为除了使期待收益最大化的值以外的值的搜索后,在行驶距离RL进一步增大的情况下,重新允许进行上述搜索。但是,CPU72设置如下限制:相比于行驶距离RL在收敛判定值RLthL以下的情况,使能够作为贪婪行动以外的行动进行选择的行动的范围变小。具体而言,以使贪婪行动所示的节气门开度指令值TA*的值与可选择的行动所示的节气门开度指令值TA*的值之差的绝对值成为“δ·TAmax”以下、并且贪婪行动所示的延迟量aop与可选择的行动所示的延迟量aop的值之差的绝对值成为“δ·aopmax”以下的方式,限制可选择的行动的范围。该限制是鉴于考虑到如下而做出的:即使贪婪行动由于车辆VC1的劣化而相对于车辆VC1的劣化前发生了变化,从车辆VC1的劣化前的贪婪行动起的贪婪行动的变化量也不会很大。如此,限制行动的搜索范围。由此,能够抑制进行使用不可能成为贪婪行动的行动的不需要的搜索。
根据以上说明的本实施方式,还能获得以下所述的效果。
(1)在行驶距离RL超过收敛判定值RLthL且小于劣化阈值RLthH情况下,禁止进行行动的搜索。由此,能够避免继续进行不需要的搜索,进而能够避免采取除最佳行动以外的行动。
(2)将行驶距离RL作为表示车辆VC1的劣化程度的变量即劣化变量。根据行驶距离RL,变更了行动的搜索范围。由此,能够简单地将车辆VC1有没有劣化进行量化。
<第2实施方式>
以下,参照图6以及图7,以与第1实施方式的不同之处为中心,对第2实施方式进行说明。
在本实施方式中,在车辆VC1之外执行关系规定数据DR的更新。
图6表示在本实施方式中执行强化学习的控制系统的构成。此外,在图6中,为方便起见,对与图1所示的部件对应的部件标记同一标号。
图6所示的车辆VC1内的控制装置70中的ROM74存储有控制程序74a,但没有存储学习程序74b。另外,控制装置70具备通信机77。通信机77是用于经由车辆VC1外部的网络100与数据解析中心110进行通信的设备。
数据解析中心110解析从多个车辆VC1、VC2、……发送的数据。数据解析中心110具备CPU112、ROM114、可电改写的非易失性存储器(存储装置116)、外围电路118以及通信机117,它们能够通过局域网119进行通信。在ROM114中存储有学习程序114a,在存储装置116中存储有关系规定数据DR。
图7表示本实施方式涉及的强化学习的处理步骤。图7的(a)部分所示的处理通过图6所示的CPU72执行存储于ROM74的控制程序74a来实现。另外,图7的(b)部分所示的处理通过CPU112执行存储于ROM114的学习程序114a来实现。此外,在图7中,为方便起见,对与图3所示的处理对应的处理标记同一步骤编号。以下,按照强化学习的时间序列,说明图7所示的处理。
在图7的(a)部分所示的一系列处理中,CPU72执行S30~S48的处理,并在S48的处理中作出肯定判定的情况下,通过操作通信机77,发送进行关系规定数据DR的更新处理所需的数据(S100)。在此,成为发送对象的数据包括在预定期间内的S30的处理中所设定的状态s、在预定期间内的S32的处理中所设定的行动a、和在预定期间内的S36的处理中所取得的转矩指令值Trq*、转矩Trq以及加速度Gx。
对此,如图7的(b)部分所示的那样,CPU112接收从车辆VC1发送来的数据(S110),并基于接收到的数据更新关系规定数据DR(S50)。然后,CPU112判定关系规定数据DR的更新次数是否在预定次数以上(S112),在判定为更新次数在预定次数以上的情况下(S112:是),通过操作通信机117,向发送了通过S110的处理接收到的数据的车辆VC1发送关系规定数据DR(S114)。此外,CPU112在完成S114的处理的情况下或在S112的处理中作出否定判定的情况下,暂时结束图7的(b)部分所示的一系列处理。
对此,如图7的(a)部分所示的那样,CPU72判定是否有与关系规定数据DR有关的更新数据(S102),并在判定为有更新数据的情况下(S102:是),接收被更新了的关系规定数据DR(S104)。然后,CPU72将在S32的处理中利用的关系规定数据DR根据接收到的关系规定数据DR进行改写(S106)。此外,CPU72在完成S106的处理的情况下或在S40、S44、S48、S102的处理中作出否定判定的情况下,暂时结束图7的(a)部分所示的一系列处理。
如此,根据本实施方式,在车辆VC1的外部进行关系规定数据DR的更新处理。由此,能够减轻控制装置70的运算负荷。再者,例如如果在S110的处理中接收来自多个车辆VC1、VC2的数据来进行S50的处理,则能够容易地增大用于学习的数据数量。
<对应关系>
上述实施方式中的事项与上述“发明内容”栏中记载的事项的对应关系如下。以下,按“发明内容”栏中记载的例子的编号表示了对应关系。
[1]执行装置对应于CPU72以及ROM74,存储装置对应于存储装置76。
状态取得处理对应于S30、S36的处理,操作处理对应于S34的处理。
奖励计算处理对应于S62~S66的处理,更新处理对应于S68~S74的处理。
劣化变量取得处理对应于S10的处理,变更处理对应于图5的处理。
更新映射对应于由学习程序74b中的执行S68~S74的处理的指令所规定的映射。
劣化程度成为预定程度以上的情况对应于行驶距离RL成为劣化阈值RLthH以上的情况。
收益非最大化范围是操作处理采用使关于奖励的期待收益最大化的行动a(贪婪行动)的值以外的行动的值作为行动变量的范围。
变更处理在车辆的行驶距离RL在劣化阈值RLthH以上的情况下,与行驶距离RL小于劣化阈值RLthH的情况相比,将收益非最大化范围向扩大侧进行变更。
[2]对应于S88的处理。
[3]第1范围对应于在S86的处理中所研究的全部行动。
第2范围对应于零。
第3范围对应于通过S88的处理所设定的范围。
[4]~[6]第1执行装置对应于CPU72以及ROM74,第2执行装置对应于CPU112以及ROM114。
[7]计算机对应于图1的CPU72、图6的CPU72、CPU112。
<其他实施方式>
此外,本实施方式可以如下进行变更来实施。本实施方式和以下的变更例可以在技术上不矛盾的范围内相互组合来实施。
[关于劣化变量]
·作为劣化变量,不限于行驶距离RL。例如也可以,在具备空燃比传感器的情况下,空燃比传感器的检测值的变动量为劣化变量。另外,例如也可以为,在对空燃比进行闭环控制和反馈控制的情况下,燃料喷射阀16的燃料喷射量的反馈校正量的大小为劣化变量。
·在将根据与时间的经过具有正相关的量来对劣化程度低于预定程度的情况进行细分的变量作为劣化变量的情况下,例如也可以由用于判定劣化程度是否在预定程度以上的行驶距离RL和行动价值函数Q的值是否已收敛的变量的组来构成劣化变量。
[关于变更处理]
·在上述实施方式中,在行驶距离RL大于收敛判定值RLthL且小于劣化阈值RLthH的情况下,设为仅使用贪婪行动,并禁止了搜索,但不限于此。例如也可以在行驶距离RL在如上范围内的情况下,允许在比通过S88的处理所规定的范围小的范围内的搜索。
·例如也可以通过如下处理构成变更处理:如在下述“关于计算机”一栏中记载的那样,在产品出厂时禁止搜索,并由于劣化程度成为预定程度以上而开始搜索。
[关于行动变量]
·在上述实施方式中,作为作为行动变量的与节气门的开度有关的变量,例示了节气门开度指令值TA*,但不限于此。例如,也可以用浪费时间(停滞时间)以及二阶滞后滤波器来表现相对于加速器操作量PA的节气门开度指令值TA*的响应性,并将浪费时间和规定二阶滞后滤波器的两个变量的共计3个变量作为与节气门的开度有关的变量。但是,在该情况下,状态变量优选设为加速器操作量PA的每单位时间的变化量以取代加速器操作量PA的时间序列数据。
·在上述实施方式中,作为作为行动变量的与点火正时有关的变量,例示了延迟量aop,但不限于此。例如也可以,被作为KCS的校正对象的点火正时本身是与点火正时有关的变量。
·在上述实施方式中,作为行动变量,例示了与节气门的开度有关的变量以及与点火正时有关的变量,但不限于此。例如,也可以除了与节气门的开度有关的变量以及与点火正时有关的变量之外还使用燃料喷射量。另外,关于上述3个变量,也可以仅采用与节气门的开度有关的变量以及燃料喷射量、或仅采用与点火正时有关的变量以及燃料喷射量作为行动变量。再者,关于上述3个变量,也可以仅采用它们中的一个作为行动变量。
·在如下述“关于内燃机”一栏中记载的那样,是压缩着火式的内燃机的情况下,使用与喷射量有关的变量代替与节气门的开度有关的变量、使用与喷射正时有关的变量代替与点火正时有关的变量即可。此外,优选除了与喷射正时有关的变量之外,还加入与1个燃烧循环(cycle)中的喷射次数有关的变量和/或与1个燃烧循环内的用于一个汽缸的在时间序列上相邻的两个燃料喷射中的一方的结束定时与另一方的开始定时之间的时间间隔有关的变量。
·例如在变速装置50为有级变速装置的情况下,也可以将用于通过油压对离合器的接合状态进行调整的电磁阀的电流值等作为行动变量。
·例如在如下述“关于车辆”一栏中记载的那样,采用混合动力车、电动汽车、燃料电池车作为车辆的情况下,也可以将旋转电机的转矩和/或输出作为行动变量。另外,例如在具备具有利用内燃机的曲轴的旋转动力进行旋转的压缩机的车载空调装置的情况下,也可以将压缩机的负载转矩包含于行动变量。另外,在具备电动式的车载空调装置的情况下,也可以将空调装置的功耗包含于行动变量。
[关于状态]
·在上述实施方式中,将加速器操作量PA的时间序列数据设为了包括按等间隔采样得到的6个值的数据,但不限于此。加速器操作量PA的时间序列数据只要是包括在互不相同的采样定时的2个以上的采样值的数据即可,此时,更优选为包括3个以上的采样值的数据、采样间隔为等间隔的数据。
·作为与加速器操作量有关的状态变量,不限于加速器操作量PA的时间序列数据,例如如上述“关于行动变量”一栏中记载的那样,也可以是加速器操作量PA的每单位时间的变化量等。
·例如在如上述“关于行动变量”一栏中记载的那样,将电磁阀的电流值作为行动变量的情况下,在状态中包含变速装置的输入轴52的转速、输出轴54的转速、由电磁阀调整的油压即可。另外,例如在如上述“关于行动变量”一栏中记载的那样,将旋转电机的转矩和/或输出作为行动变量的情况下,在状态中包含电池的充电率、温度即可。另外,例如在如上述“关于行动变量”一栏中记载的那样,将压缩机的负载转矩、空调装置的功耗包含于行动的情况下,在状态中包含车室内的温度即可。
[关于表形式的数据的降维]
·作为表形式的数据的降维方法,不限于在上述实施方式中例示的方法。例如很少有加速器操作量PA成为最大值的情况。由此,也可以为,对于加速器操作量PA成为规定量以上的状态,不定义行动价值函数Q,对加速器操作量PA成为规定量以上的情况下的节气门开度指令值TA*等另行进行适配。另外,例如也可以通过从行动的可取的值去除节气门开度指令值TA*成为规定值以上的值等来进行降维。
[关于关系规定数据]
·在上述实施方式中,将行动价值函数Q设为了表形式的函数,但不限于此。例如也可以使用函数逼近器。
·例如,也可以取代使用行动价值函数Q,而用以状态s及行动a为自变量并以取行动a的概率为因变量的函数逼近器来表现策略π,根据奖励r,将确定函数逼近器的参数更新。
[关于操作处理]
·例如在如上述“关于关系规定数据”一栏中记载的那样将行动价值函数设为函数逼近器的情况下,通过将成为上述实施方式中的表形式的函数的自变量的关于行动的离散的值的全部组、和状态s输入到行动价值函数Q,选择使行动价值函数Q最大化的行动a即可。
·例如在如上述“关于关系规定数据”一栏中记载的那样,将以状态s及行动a为自变量并以取行动a的概率为因变量的函数逼近器作为策略π的情况下,基于由策略π表示的概率选择行动a即可。
[关于更新映射]
·在S68~S74的处理中,例示了利用ε软同策略型蒙特卡洛方法的处理,但不限于此。例如也可以是利用异策略型(off-policy type)蒙特卡洛方法的处理。不过,也不限于蒙特卡洛方法,例如也可以使用异策略型TD法,另外例如也可以使用如SARSA(state-action-reward-state'-action')法的同策略型TD法,另外例如作为同策略型的学习,也可以使用资格迹方法(eligibility trace method)。
·例如在如上述“关于关系规定数据”一栏中记载的那样,使用函数逼近器表现策略π并基于奖励r直接更新函数逼近器的情况下,使用策略梯度法等构成更新映射即可。
·不限于仅将行动价值函数Q和策略π中的某一方作为基于奖励r的直接的更新对象。例如,也可以如Actor Critic(演员评判家)法那样对行动价值函数Q和策略π分别进行更新。另外,在Actor Critic法中,不限于将行动价值函数Q和策略π作为更新对象,例如也可以代替行动价值函数Q而将价值函数V作为更新对象。
[关于奖励计算处理]
·在上述实施方式中,根据条件(i)和条件(ii)的逻辑与是否为真而给予了奖励,但不限于此。例如,也可以执行根据是否满足条件(i)来给予奖励的处理、和根据是否满足条件(ii)来给予奖励的处理。
·例如也可以取代在满足条件(i)的情况下一律给予相同的奖励,而设为在转矩Trq与转矩指令值Trq*之差的绝对值小的情况下比该绝对值大的情况下给予较大的奖励的处理。另外,例如也可以取代在不满足条件(i)的情况下一律给予相同的奖励,而设为在转矩Trq与转矩指令值Trq*之差的绝对值大的情况下比该绝对值小的情况下给予较小的奖励的处理。
·例如也可以取代在满足条件(ii)的情况下一律给予相同的奖励,而设为根据加速度Gx的大小来使奖励的大小可变的处理。另外,例如也可以取代在不满足条件(ii)的情况下一律给予相同的奖励,而设为根据加速度Gx的大小来使奖励的大小可变的处理。
·作为奖励计算处理,不限于根据是否满足与驾驶性能有关的基准来给予奖励r的处理。例如,也可以是在能量利用效率满足基准的情况下比不满足的情况下给予较大的奖励的处理和/或在排气特性满足基准的情况下比不满足的情况下给予较大的奖励的处理。此外,也可以包括以下三个处理中的两个或者三个:在满足与驾驶性能有关的基准的情况下比不满足的情况下给予较大的奖励的处理;在能量利用效率满足基准的情况下比不满足的情况下给予较大的奖励的处理;和在排气特性满足基准的情况下比不满足的情况下给予较大的奖励的处理。
·例如在如上述“关于行动变量”一栏中记载的那样将变速装置50的电磁阀的电流值作为行动变量的情况下,例如在奖励计算处理中包括以下的(a)~(c)这三个处理中的至少一个处理即可。
(a)是以下处理:在变速装置的变速比的切换所需的时间为预定时间以内的情况下比该所需的时间超过预定时间的情况下给予较大的奖励。
(b)是以下处理:在变速装置的输入轴52的转速的变化速度的绝对值为输入侧预定值以下的情况下比该绝对值超过输入侧预定值的情况下给予较大的奖励。
(c)是以下处理:在变速装置的输出轴54的转速的变化速度的绝对值为输出侧预定值以下的情况下比该绝对值超过输出侧预定值的情况下给予较大的奖励。
·例如在如上述“关于行动变量”一栏中记载的那样将旋转电机的转矩和/或输出作为行动变量的情况下,也可以包括以下处理:在电池的充电率在预定范围内的情况下比充电率不在预定范围内的情况下给予较大的奖励的处理;在电池的温度在预定范围内的情况下比温度不在预定范围内的情况下给予较大的奖励的处理。另外,例如在如上述“关于行动变量”一栏中记载的那样将压缩机的负载转矩和/或空调装置的功耗包含于行动变量的情况下,也可以加上在车室内的温度在预定范围内的情况下比温度不在预定范围内的情况下给予较大的奖励的处理。
[关于车辆用控制系统]
·在图7的处理中,在数据解析中心110中执行了S50的全部处理,但不限于此。例如也可以,在车辆VC1侧执行S50的处理中的图4的S62~S66的处理,将图7的(a)部分的S100的处理进行局部变更而从车辆VC1将奖励r的计算结果发送到数据解析中心110。
·作为车辆用控制系统,不限于由控制装置70以及数据解析中心110构成的系统。例如也可以使用用户持有的便携终端代替数据解析中心110,由控制装置70以及便携终端构成车辆用控制系统。另外,例如也可以由控制装置70、便携终端以及数据解析中心110构成车辆用控制系统。该构成例如在图7中能够通过便携终端执行S32的处理来实现。
[关于执行装置]
·作为执行装置,不限于具备CPU72(112)和ROM74(114)并执行软件处理的装置。例如,也可以具备对在上述实施方式中被进行软件处理的内容的至少一部分进行硬件处理的例如ASIC等专用的硬件电路。即,执行装置是以下的(a)~(c)中的某个构成即可。(a)具备按照程序执行上述处理的全部的处理装置、和存储程序的ROM等程序存储装置(包括非瞬时性的计算机可读取的存储介质)。(b)具备按照程序执行上述处理的一部分的处理装置以及程序存储装置、和执行其余处理的专用硬件电路。(c)具备执行上述处理的全部的专用硬件电路。在此,具备处理装置以及程序存储装置的软件执行装置、和专用硬件电路也可以为多个。
[关于计算机]
·作为计算机,不限于图1的CPU72、图6的CPU72、CPU112。例如也可以为如下构成:用于生成车辆VC1出厂前的关系规定数据DR的计算机和搭载于车辆VC1的CPU72作为整体而作为一个计算机发挥功能。在该情况下,也可以在出厂时禁止搜索,并在行驶距离RL成为劣化阈值RLthH以上的情况下允许搜索。在行驶距离RL成为劣化阈值RLthH以上的情况下所允许的搜索的搜索范围优选为,与通过用于生成关系规定数据DR的计算机执行的强化学习中的搜索相比,行动变量可取的值的范围较小。顺便说一下,在车辆出厂前的关系规定数据DR的生成处理中,也可以,不存在车辆,而通过用测试台使内燃机10等运转从而模拟车辆的行驶来以伪方式生成车辆的状态。而且,也可以根据传感器的检测值等来掌握以伪方式生成的车辆的状态,并且将车辆的状态用于强化学习。在该情况下,将以伪方式生成的车辆的状态视作基于传感器值的车辆的状态。
[关于存储装置]
·在上述实施方式中,将存储关系规定数据DR的存储装置与存储学习程序74b和控制程序74a的存储装置(ROM74)设为彼此有别的存储装置,但不限于此。
[关于内燃机]
·作为内燃机,不限于具备向进气通路12喷射燃料的进气口喷射阀作为燃料喷射阀的内燃机,也可以是具备直接向燃烧室24喷射燃料的缸内喷射阀的内燃机。另外,例如也可以是具备进气口喷射阀和缸内喷射阀双方的内燃机。
·作为内燃机,不限于火花点火式内燃机,例如也可以是使用轻油等作为燃料的压缩着火式内燃机等。
[关于车辆]
·作为车辆,不限于推力生成装置仅为内燃机的车辆,例如也可以是具备内燃机和旋转电机的所谓的混合动力车辆。另外,例如也可以是不具备内燃机而具备旋转电机作为推力生成装置的所谓的电动汽车和燃料电池车。

Claims (9)

1.一种车辆用控制装置,其具备执行装置以及存储装置,
所述存储装置存储关系规定数据,所述关系规定数据规定车辆的状态与行动变量的关系,所述行动变量是与搭载于所述车辆的电子设备的操作有关的变量,
所述执行装置构成为执行:
状态取得处理,该状态取得处理基于每次的传感器的检测值,取得每次的所述车辆的状态;
操作处理,该操作处理基于所述行动变量的值,操作所述电子设备,所述行动变量的值由所述关系规定数据和通过所述状态取得处理所取得的所述车辆的状态来确定;
奖励计算处理,该奖励计算处理基于通过所述状态取得处理所取得的所述车辆的状态,在所述车辆的特性满足基准的情况下,与所述车辆的特性不满足所述基准的情况相比,给予较大的奖励;
更新处理,该更新处理将通过所述状态取得处理所取得的所述车辆的状态、所述电子设备的操作中所使用了的所述行动变量的值、和与该操作对应的所述奖励作为向预先确定的更新映射的输入,更新所述关系规定数据;
劣化变量取得处理,该劣化变量取得处理取得表示所述车辆的劣化程度的变量、即劣化变量;以及
变更处理,该变更处理在所述车辆的劣化程度为预定程度以上的情况下,与所述劣化程度低于预定程度的情况相比,将收益非最大化范围向进行扩大侧变更,所述收益非最大化范围是所述操作处理采用使关于所述奖励的期待收益最大化的值以外的值作为所述行动变量的范围,
所述更新映射输出以使按照所述关系规定数据来操作所述电子设备的情况下的所述期待收益增加的方式进行了更新的所述关系规定数据。
2.根据权利要求1所述的车辆用控制装置,
所述变更处理包括将所述收益非最大化范围从零扩大为比零大的范围的处理。
3.根据权利要求2所述的车辆用控制装置,
所述劣化变量也是将根据与时间的经过具有正相关的量来对所述劣化程度低于预定程度的情况进行细分的变量,
所述变更处理是随着所述时间的经过而将所述收益非最大化范围从第1范围经由第2范围变为第3范围的处理,
所述第1范围是比所述第2范围和所述第3范围大的范围,
所述第3范围是比所述第2范围大的范围,
将所述范围向扩大该范围侧变更的所述变更处理是在所述车辆的劣化程度为预定程度以上的情况下将所述收益非最大化范围向从所述第2范围扩大为所述第3范围侧进行变更的处理。
4.一种车辆用控制系统,其具备权利要求1至3中任一项所述的车辆用控制装置中的所述执行装置以及所述存储装置,
所述执行装置包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置,
所述第1执行装置构成为至少执行所述状态取得处理和所述操作处理,
所述第2执行装置构成为至少执行所述更新处理。
5.一种车辆用控制装置,
具备权利要求4所述的车辆用控制系统中的所述第1执行装置。
6.一种车辆用学习装置,
具备权利要求4所述的车辆用控制系统中的所述第2执行装置。
7.一种车辆用学习方法,
使计算机执行权利要求1至3中任一项所述的车辆用控制装置中的所述状态取得处理、所述操作处理、所述奖励计算处理、所述更新处理、所述劣化变量取得处理以及所述变更处理。
8.一种车辆用控制方法,是通过执行装置以及存储装置执行的车辆用控制方法,包括:
通过所述存储装置存储关系规定数据,所述关系规定数据规定车辆的状态与行动变量的关系,所述行动变量是与搭载于所述车辆的电子设备的操作有关的变量,
通过所述执行装置,
基于每次的传感器的检测值,取得每次的所述车辆的状态;
基于所述行动变量的值,操作所述电子设备,所述行动变量的值由所述关系规定数据和所取得的所述车辆的状态来确定;
基于所取得的所述车辆的状态,在所述车辆的特性满足基准的情况下,与所述车辆的特性不满足所述基准的情况相比,给予较大的奖励;
通过将所取得的所述车辆的状态、所述电子设备的操作中所使用了的所述行动变量的值、和与该操作对应的所述奖励作为向预先确定的更新映射的输入,更新所述关系规定数据;
取得表示所述车辆的劣化程度的变量、即劣化变量;和
在所述车辆的劣化程度为预定程度以上的情况下,与所述劣化程度低于预定程度的情况相比,将收益非最大化范围向进行扩大侧变更,所述收益非最大化范围是采用使关于所述奖励的期待收益最大化的值以外的值作为所述行动变量的范围,
所述更新映射输出以使按照所述关系规定数据来操作所述电子设备的情况下的所述期待收益增加的方式进行了更新的所述关系规定数据。
9.一种非瞬时性的计算机可读取的存储介质,其存储有使执行装置以及存储装置执行的车辆用控制处理,所述车辆用控制处理包括:
通过所述存储装置存储关系规定数据,所述关系规定数据规定车辆的状态与行动变量的关系,所述行动变量是与搭载于所述车辆的电子设备的操作有关的变量,
通过所述执行装置,
基于每次的传感器的检测值,取得每次的所述车辆的状态;
基于所述行动变量的值,操作所述电子设备,所述行动变量的值由所述关系规定数据和所取得的所述车辆的状态来确定;
基于所取得的所述车辆的状态,在所述车辆的特性满足基准的情况下,与所述车辆的特性不满足所述基准的情况相比,给予较大的奖励;
通过将所取得的所述车辆的状态、所述电子设备的操作中所使用了的所述行动变量的值、和与该操作对应的所述奖励作为向预先确定的更新映射的输入,更新所述关系规定数据;
取得表示所述车辆的劣化程度的变量、即劣化变量;和
在所述车辆的劣化程度为预定程度以上的情况下,与所述劣化程度低于预定程度的情况相比,将收益非最大化范围向进行扩大侧变更,所述收益非最大化范围是采用使关于所述奖励的期待收益最大化的值以外的值作为所述行动变量的范围,
所述更新映射输出以使按照所述关系规定数据来操作所述电子设备的情况下的所述期待收益增加的方式进行了更新的所述关系规定数据。
CN202011090423.9A 2019-10-18 2020-10-13 车辆用控制装置、控制系统、学习装置和方法及存储介质 Active CN112682204B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2019191095A JP6744598B1 (ja) 2019-10-18 2019-10-18 車両用制御システム、車両用制御装置、および車両用学習装置
JP2019-191095 2019-10-18
JP2019-231144 2019-12-23
JP2019231144A JP7207289B2 (ja) 2019-12-23 2019-12-23 車両用制御装置、車両用制御システム、車両用学習装置、および車両用学習方法

Publications (2)

Publication Number Publication Date
CN112682204A true CN112682204A (zh) 2021-04-20
CN112682204B CN112682204B (zh) 2023-03-10

Family

ID=75445514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011090423.9A Active CN112682204B (zh) 2019-10-18 2020-10-13 车辆用控制装置、控制系统、学习装置和方法及存储介质

Country Status (2)

Country Link
US (1) US11377084B2 (zh)
CN (1) CN112682204B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210114596A1 (en) * 2019-10-18 2021-04-22 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254505A (ja) * 1997-03-14 1998-09-25 Toyota Motor Corp 自動制御装置
US20030196639A1 (en) * 2002-04-23 2003-10-23 Bauerle Paul Alan Compensation of throttle area using intake diagnostic residuals
CN1590741A (zh) * 2003-09-03 2005-03-09 本田技研工业株式会社 对吸入内燃机内的空气量进行控制的装置
US20050187699A1 (en) * 2004-02-20 2005-08-25 Stamm David A. Airflow variation learning using electronic throttle control
JP2006144751A (ja) * 2004-11-24 2006-06-08 Toyota Motor Corp 内燃機関の制御装置
JP2019144748A (ja) * 2018-02-19 2019-08-29 株式会社デンソー 情報処理システム、車載制御装置、及び情報処理装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2974440B2 (ja) 1991-03-22 1999-11-10 株式会社日立製作所 自動車総合制御装置
JP2000250604A (ja) 1999-03-02 2000-09-14 Yamaha Motor Co Ltd 特性最適化方法における最適化の協調方法
US6549815B1 (en) 1999-03-02 2003-04-15 Yamaha Hatsudoki Kabushiki Kaisha Method and apparatus for optimizing overall characteristics of device, using heuristic method
JP6026612B2 (ja) 2015-09-22 2016-11-16 本田技研工業株式会社 車両用内燃機関の制御装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254505A (ja) * 1997-03-14 1998-09-25 Toyota Motor Corp 自動制御装置
US20030196639A1 (en) * 2002-04-23 2003-10-23 Bauerle Paul Alan Compensation of throttle area using intake diagnostic residuals
CN1590741A (zh) * 2003-09-03 2005-03-09 本田技研工业株式会社 对吸入内燃机内的空气量进行控制的装置
US20050187699A1 (en) * 2004-02-20 2005-08-25 Stamm David A. Airflow variation learning using electronic throttle control
JP2006144751A (ja) * 2004-11-24 2006-06-08 Toyota Motor Corp 内燃機関の制御装置
JP2019144748A (ja) * 2018-02-19 2019-08-29 株式会社デンソー 情報処理システム、車載制御装置、及び情報処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210114596A1 (en) * 2019-10-18 2021-04-22 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system
US11654915B2 (en) * 2019-10-18 2023-05-23 Toyota Jidosha Kabushiki Kaisha Method of generating vehicle control data, vehicle control device, and vehicle control system

Also Published As

Publication number Publication date
US11377084B2 (en) 2022-07-05
US20210114579A1 (en) 2021-04-22
CN112682204B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
CN112682197B (zh) 车辆用控制数据的生成方法、车辆用控制装置和控制系统
CN112682181B (zh) 车辆用控制装置、车辆用控制系统以及车辆控制方法
US11313309B2 (en) Vehicle control device, vehicle control system, and method for controlling vehicle
CN112682203B (zh) 车辆用控制装置、系统、方法、学习装置、以及存储介质
US11453376B2 (en) Vehicle control device, vehicle control system, and method for controlling vehicle
CN113187612A (zh) 车辆用控制装置、车辆用控制系统、车辆用控制方法及车辆用控制系统的控制方法
JP7287287B2 (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
TWI745120B (zh) 車輛控制系統、車輛控制裝置及用於車輛之控制方法
CN113090400B (zh) 车辆用控制装置及控制系统、车辆用学习装置及学习方法、车辆用控制方法以及存储介质
CN113266479A (zh) 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置
CN113103971A (zh) 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置
CN113264034A (zh) 车辆用控制数据的生成方法、控制装置、系统及学习装置
CN112682196A (zh) 车辆用控制装置、车辆用控制系统、以及车辆用学习装置
CN112682204B (zh) 车辆用控制装置、控制系统、学习装置和方法及存储介质
CN113217204A (zh) 车辆控制方法、车辆用控制装置以及服务器
CN113266481A (zh) 车辆控制方法、车辆用控制装置以及服务器
JP7207289B2 (ja) 車両用制御装置、車両用制御システム、車両用学習装置、および車両用学習方法
CN113187613A (zh) 控制车辆的方法、用于车辆的控制装置、以及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant