CN113006951B

CN113006951B - 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置

Info

Publication number: CN113006951B
Application number: CN202011484706.1A
Authority: CN
Inventors: 桥本洋介; 片山章弘; 大城裕太; 杉江和纪; 冈尚哉
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2019-12-20
Filing date: 2020-12-16
Publication date: 2023-04-28
Anticipated expiration: 2040-12-16
Also published as: US20210188276A1; CN113006951A

Abstract

提供一种车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置。CPU使用关系规定数据，基于加速器操作量的时间序列数据、车速、变速比，设定节气门开口度指令值和变速比指令值。CPU根据节气门开口度指令值和变速比指令值来对节气门、变速装置进行操作，取得那时的转速、转矩、转矩指令值以及加速度。在预定期间完成的情况下，CPU通过根据转矩、加速度是否满足基准来给与奖励，对关系规定数据进行更新。CPU根据是否为合流部来变更奖励。

Description

车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置

技术领域

本发明涉及车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置。

背景技术

日本特开2016-6327号公报记载了基于对加速踏板的操作量进行了滤波处理后的值来对节气门进行操作的控制装置。

使用于滤波处理的滤波器需要根据加速踏板的操作量来将节气门的操作量设定为适当的操作量。因此，滤波器的适配对于熟练人员来说需要许多工时。这样，与车辆的状态相应的车辆内的电子设备的操作量的适配对于熟练人员来说需要许多工时。

发明内容

为了解决上述课题，根据本发明的第一技术方案，提供使用了存储装置和执行装置的车辆用控制数据的生成方法。该方法包括：将关系规定数据存储于所述存储装置，所述关系规定数据对车辆的状态与行动变量的关系进行规定，所述行动变量是与所述车辆内的电子设备的操作有关的行动变量；和在将所述关系规定数据存储在了所述存储装置的状态下，通过所述执行装置执行取得处理、操作处理、奖励算出处理以及更新处理，所述取得处理为，取得基于传感器的检测值的所述车辆的状态、和确定所述车辆行驶的道路的道路变量，所述操作处理为，对所述电子设备进行操作，所述奖励算出处理为，基于通过所述取得处理取得的所述车辆的状态，使所述车辆的特性满足基准的情况下给与的奖励比所述车辆的特性不满足预定基准的情况下给与的该奖励大，

所述更新处理为，将通过所述取得处理取得的所述车辆的状态、在所述电子设备的操作中使用了的所述行动变量的值以及与所述电子设备的操作对应的所述奖励作为向预先确定的更新映射的输入，对所述关系规定数据进行更新，所述更新映射输出以使关于按照所述关系规定数据操作所述电子设备的情况下的所述奖励的期待收益增加的方式进行了更新的所述关系规定数据，所述奖励算出处理包括如下的变更处理：相对于在所述道路变量的值为第1值的情况下所述车辆具有预定特性时所给予的所述奖励，变更在所述道路变量的值为第2值的情况下所述车辆具有所述预定特性时所给予的奖励。

在上述方法中，通过算出伴随着电子设备的操作的奖励，能够掌握通过该操作能得到什么样的奖励。并且，通过基于奖励，根据进行了强化学习的更新映射对关系规定数据进行更新，能够设定车辆的状态与行动变量的适当的关系。因此，能够在设定车辆的状态与行动变量的适当的关系时，削减对熟练人员要求的工时。

另外，根据道路是高速道路还是一般道路、是否为合流部、坡度是否大、曲率是否大，对于车辆的要求要素可能为互不相同的要求要素。于是，在上述方法中，通过根据道路变量来对奖励的给与方式进行变更，能够通过强化学习对与道路相应的适当的关系规定数据进行学习。

在上述车辆用控制数据的生成方法中，优选的是，所述道路变量是对是从一般道路向高速道路合流的合流部这一情况以及是一般道路这一情况进行识别的变量，所述奖励算出处理包括如下两个处理：在满足与加速器响应有关的基准的情况下，相比于不满足与所述加速器响应有关的基准的情况，给予较大奖励的处理；和在能量利用效率高的情况下，相比于所述能量利用效率低的情况，给予较大奖励的处理，所述变更处理包括如下处理：对所述两个处理中的至少一个处理进行变更，以使得在所述合流部提高所述加速器响应有利于得到比在所述一般道路提高所述加速器响应大的奖励。

在上述构成中，在合流部中，能够通过强化学习对能够实现提高加速器响应的控制的关系规定数据进行学习。

在上述车辆用控制数据的生成方法中，优选的是，还包括：通过所述执行装置执行如下处理，该处理为基于通过所述更新处理更新后的所述关系规定数据，将所述车辆的状态与使所述期待收益最大化的所述行动变量的值相关联，由此生成将所述车辆的状态作为输入而输出使所述期待收益最大化的所述行动变量的值的控制用映射数据。

在上述方法中，基于通过强化学习进行了学习的关系规定数据，生成控制用映射数据。因此，能够通过将该控制用映射数据安装于控制装置，基于车辆的状态和行动变量来简单地设定使期待收益最大化的行动变量的值。

为了解决上述课题，根据本发明的第二技术方案，提供一种车辆用控制装置，具备所述存储装置和所述执行装置，所述操作处理包括如下处理：基于所述关系规定数据，按照与所述车辆的状态相应的行动变量的值来对所述电子设备进行操作。

在上述构成中，基于通过强化学习进行了学习的关系规定数据来设定行动变量的值，基于此来对电子设备进行操作，由此，能够对电子设备进行操作以使得增大期待收益。

为了解决上述课题，根据本发明的第三技术方案，提供一种车辆用控制系统，具备所述执行装置和所述存储装置，所述执行装置包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置，所述第1执行装置至少执行所述取得处理和所述操作处理，所述第2执行装置至少执行所述更新处理。

在上述构成中，通过第2执行装置执行更新处理，由此，与第1执行装置执行更新处理的情况相比，能够减轻第1执行装置的运算负荷。

此外，第2执行装置是有别于车载装置的装置意味着第2执行装置不是车载装置。

为了解决上述课题，根据本发明的第四技术方案，提供一种车辆用控制装置，具备所述第1执行装置。

为了解决上述课题，根据本发明的第五技术方案，提供一种车辆用学习装置，具备所述第2执行装置。

附图说明

图1是表示本发明的第1实施方式涉及的控制装置和驱动系统的图。

图2是表示控制装置执行的处理的步骤的流程图。

图3是表示生成映射数据的系统的图。

图4是表示系统执行的处理的步骤的流程图。

图5是表示学习处理的详细的流程图。

图6是表示映射数据的生成处理的步骤的流程图。

图7是表示第2实施方式涉及的控制装置和驱动系统的图。

图8是表示控制装置执行的处理的步骤的流程图。

图9是表示第3实施方式涉及的系统的构成的图。

图10A和图10B是表示系统执行的处理的步骤的流程图。

具体实施方式

以下，参照附图对车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置涉及的实施方式进行说明。

＜第1实施方式＞

图1表示第1实施方式涉及的车辆VC1的驱动系统和控制装置的构成。

如图1所示，在内燃机10的进气通路12从上游侧开始依次设置有节气门14和燃料喷射阀16。被吸入到进气通路12的空气、从燃料喷射阀16喷射的燃料伴随着进气门18的开门而流入到由气缸20和活塞22区划的燃烧室24。在燃烧室24内，燃料和空气的混合气伴随着点火装置26的火花放电而被供于燃烧，通过燃烧产生的能量经由活塞22被变换为曲轴28的旋转能量。燃烧了的混合气伴随着排气门30的开门而被作为排气排出到排气通路32。在排气通路32设置有作为对排气进行净化的后处理装置的催化剂34。

曲轴28能够经由具备锁止离合器42的转矩转换器40而以机械的方式连结有变速装置50的输入轴52。变速装置50对变速比进行控制，该变速比是输入轴52的转速与输出轴54的转速之比。输出轴54以机械的方式与驱动轮60连结。

控制装置70将内燃机10作为控制对象。控制装置70为了对转矩、排气成分比率等进行控制，对节气门14、燃料喷射阀16以及点火装置26等的内燃机10的操作部进行操作。控制装置70将转矩转换器40作为控制对象。控制装置70为了对锁止离合器42的接合状态进行控制，对锁止离合器42进行操作。控制装置70将变速装置50作为控制对象。控制装置70为了对变速比进行控制，对变速装置50进行操作。图1表示了节气门14、燃料喷射阀16、点火装置26、锁止离合器42以及变速装置50各自的操作信号MS1～MS5。

控制装置70为了控制内燃机10，对由空气流量计80检测的吸入空气量Ga、由节气门传感器82检测的节气门14的开口度(节气门开口度TA)、曲轴角传感器84的输出信号Scr进行参照。控制装置70对由加速器传感器88检测的加速踏板86的踏下量(加速器操作量PA)、由加速度传感器90检测的车辆VC1的前后方向上的加速度Gx进行参照。控制装置70对基于全球定位系统(GPS92)的位置数据Pgps、由挡位传感器94检测的变速比GR、由车速传感器96检测的车速V进行参照。

控制装置70具备CPU72、ROM74、能够电重写的非易失性存储器(存储装置76)以及外围电路78。CPU72、ROM74、存储装置76以及外围电路78经由局域网络79以能够进行通信的方式相连接。外围电路78包括生成对内部动作进行规定的时钟信号的电路、电源电路、复位电路等。

在ROM74中存储有控制程序74a。在存储装置76中存储有映射数据DM和地图数据DG。在映射数据DM中，当前的变速比GR、车速V、以及加速器操作量PA的时间序列数据为输入变量，作为节气门开口度TA的指令值的节气门开口度指令值TA＊以及作为变速比GR的指令值的变速比指令值GR＊是输出变量。映射数据DM包括高响应映射数据DM1和高效率映射数据DM2。映射数据是指由输入变量的离散的值和与输入变量的各值对应的输出变量的值的组构成的数据。

图2表示控制装置70执行的处理的步骤。图2所示的处理通过CPU72以预定周期反复执行存储于ROM74的程序来实现。以下，通过在开头赋予了“S”的数字来表现各处理的步骤编号。

在图2所示的一系列处理中，CPU72首先取得位置数据Pgps(S10)。并且，CPU72根据位置数据Pgps确定地图数据DG表示的地图上的位置，判定地图上的位置是否属于从一般道路向高速道路的合流部(S12)。并且，在地图上的位置为合流部的情况下(S12：是)，CPU72选择高响应映射数据DM1(S14)。在地图上的位置不是合流部的情况下(S12：否)，CPU72选择高效率映射数据(S16)。

在完成S14、16的处理的情况下，CPU72取得由加速器操作量PA的6个采样值“PA(1)、PA(2)、……、PA(6)”构成的时间序列数据、当前的变速比GR以及车速V(S18)。构成时间序列数据的各采样值是在不同的定时进行采样的。在本实施方式中，时间序列数据由以一定的采样周期采样且在时间序列上相邻的6个采样值构成。

并且，CPU72使用通过S14的处理或者S16的处理选择的映射，对节气门开口度指令值TA＊和变速比指令值GR＊进行映射运算(S20)。在此，在映射运算中，在输入变量的值与映射数据的输入变量的值中的某一个一致的情况下，将所对应的映射数据的输出变量的值作为运算结果。与此相对，在输入变量的值与映射数据的输入变量的值中的任何值都不一致的情况下，将通过映射数据所包含的多个输出变量的值的内插得到的值作为运算结果。

并且，CPU72向节气门14输出操作信号MS1来对节气门开口度TA进行操作，并且，向变速装置50输出操作信号MS5来对变速比进行操作(S22)。在此，在本实施方式中，将节气门开口度TA反馈控制为节气门开口度指令值TA＊。由此，即使节气门开口度指令值TA＊为相同的值，操作信号MS1也可以成为不同的信号。

CPU72在S22的处理完成的情况下暂时结束图2所示的一系列处理。

图3表示生成映射数据DM的系统。

如图3所示，在内燃机10的曲轴28经由转矩转换器40和变速装置50来以机械的方式连结测力计100。另外，使内燃机10进行了工作时的各种各样的状态变量由传感器组102进行检测。并且，该检测结果被输入到生成装置110，该生成装置110是生成映射数据DM的计算机。传感器组102包括搭载于图1所示的车辆VC1的传感器等。

生成装置110具备CPU112、ROM114、能够电重写的非易失性存储器(存储装置116)以及外围电路118。CPU112、ROM114、存储装置116、以及外围电路118通过局域网络119以能够进行通信的方式相连接。在此，在存储装置116中存储有关系规定数据DR。关系规定数据DR是对加速器操作量PA的时间序列数据、车速V及变速比GR等的状态变量以及作为行动变量的节气门开口度指令值TA＊及变速比指令值GR＊的关系进行规定的数据。关系规定数据DR包括高响应规定数据DR1和高效率规定数据DR2。另外，在ROM114中存储有通过强化学习对关系规定数据DR进行学习的学习程序114a。

图4表示生成装置110执行的处理的步骤。图4所示的处理通过CPU112执行存储于ROM114的学习程序114a来实现。

在图4所示的一系列处理中，CPU112首先设定道路变量VR的值(S30)，该道路变量VR是表示地图上的位置是否为合流部的变量。并且，CPU112在使内燃机10进行了工作的状态下，设定加速器操作量PA的时间序列数据、当前的变速比GR以及车速V来作为状态s(S32)。在此的时间序列数据是与S18的处理中的数据同样的数据。但是，在图3所示的系统中，不存在加速踏板86。因此，通过生成装置110对车辆VC1的状态进行模拟来以虚拟的方式生成加速器操作量PA。将以虚拟的方式生成的加速器操作量PA视为基于传感器的检测值的车辆的状态。另外，车速V被作为假定为实际存在了车辆的情况下的车辆的行驶速度来通过CPU112进行算出。将该车速视为基于传感器的检测值的车辆的状态。详细而言，CPU112基于曲轴角传感器84的输出信号Scr来算出曲轴28的转速NE，基于转速NE和变速比GR来算出车速V。

接着，CPU112按照策略π，设定与由通过S32的处理取得的状态s相应的节气门开口度指令值TA＊和变速比指令值GR＊构成的行动a(S34)。在该情况下，策略π通过高响应规定数据DR1和高效率规定数据DR2这两个数据中的与通过S30的处理设定的道路变量VR的值对应的一方的数据来确定。

关系规定数据DR是确定行动价值函数Q和策略π的数据。行动价值函数Q是对与状态s和行动a的10维的自变量相应的期待收益的值进行表示的表型式的函数。另外，策略π确定如下规则：在提供了状态s时，虽然优先选择自变量成为所提供的状态s的行动价值函数Q中的成为最大的行动a(贪婪行动(greedy action))，但是以预定的概率ε选择除此之外的行动a。

详细而言，行动价值函数Q的自变量可取的值的数量是通过人的见解等削减了状态s和行动a可取的值的全部组合中的一部分后的数量。对于加速器操作量PA的时间序列数据中的相邻的2个采样值中的一个成为加速器操作量PA的最小值、另一个成为最大值这一情况，认为不能通过人对加速踏板86的操作而产生，不定义行动价值函数Q。另外，为了避免变速比GR从2挡急剧地变化为4挡，作为当前的变速比GR为2挡的情况下可取的行动a，将变速比指令值GR＊限制为了1挡、2挡以及3挡。即，在作为状态s的变速比GR为2挡的情况下，不定义4挡以上的行动a。在本实施方式中，通过基于人的见解等的维度削减，将定义行动价值函数Q的自变量可取的值限制为10的5次方个以下、更优选是10的4次方个以下。

接着，CPU112基于所设定的节气门开口度指令值TA＊和变速比指令值GR＊，与S22的处理同样地输出操作信号MS1、MS5(S36)。接着，CPU112取得转速NE、变速比GR、内燃机10的转矩Trq、对于内燃机10的转矩指令值Trq＊以及加速度Gx(S38)。在此，CPU112基于测力计100生成的负荷转矩和变速比GR算出转矩Trq。另外，转矩指令值Trq＊根据加速器操作量PA和变速比GR来设定。在此，变速比指令值GR＊为强化学习的行动变量。因此，变速比指令值GR＊不限于是使得将转矩指令值Trq＊设定为能够由内燃机10实现的最大转矩以下的值。因此，不限于转矩指令值Trq＊是能够由内燃机10实现的最大转矩以下的值。另外，CPU112将加速度Gx作为设想为内燃机10等搭载于了车辆的情况下在车辆中所产生的值，基于测力计100的负荷转矩等来算出该加速度Gx。即，加速度Gx也是假想的值，加速度Gx也视为基于传感器的检测值的车辆的状态。

接着，CPU72判定从进行了S30的处理的定时和进行了后述的S42的处理的定时中的任一个晚的一方开始是否经过了预定期间(S40)。并且，在经过了预定期间的情况下(S40：是)，CPU112通过强化学习对行动价值函数Q进行更新(S42)。

图5表示S42的处理的详细。

在图5所示的一系列处理中，CPU112取得由预定期间内的转速NE、转矩指令值Trq＊、转矩Trq以及加速度Gx这4个采样值的组构成的时间序列数据和状态s以及行动a的时间序列数据(S50)。图5中示出括号中的数字不同的数据是不同的采样定时的变量的值。转矩指令值Trq＊(1)和转矩指令值Trq＊(2)的采样定时不同。另外，将预定期间内的行动a的时间序列数据设为行动集合Aj，将预定期间内的状态s的时间序列数据定义为状态集合Sj。

接着，CPU112基于转矩Trq和转速NE的时间序列数据，算出内燃机10的效率ηe的时间序列数据和基准效率ηer的时间序列数据(S52)。详细而言，CPU112作为“k＝1、2、3、……”，基于由转矩Trq(k)和转速NE(k)确定的工作点，算出内燃机10的效率ηe(k)和基准效率ηer(k)。在此，效率ηe是指按内燃机10的各工作点定义的、使燃烧室24内的混合气的空燃比为预定值并使点火正时为预定正时的情况下所产生的燃烧能量中的可作为动力取出的比例。另外，基准效率ηer设为对按内燃机10的各输出定义的、使燃烧室24内的混合气的空燃比为预定值并使点火正时为预定正时的情况小所产生的燃烧能量中的可作为动力取出的比例的最大值乘以比“1”小的预定系数而得到的值。即，基准效率ηer是对燃烧能量中的可作为动力取出的比例成为最大的工作点的该比例乘以预定系数而得到的值。在ROM74中存储有将转矩Trq和转速NE作为输入变量、并将效率ηe作为输出变量的映射数据的状态下，通过CPU72对效率ηe进行映射运算。另外，在ROM74中存储有将作为转矩Trq和转速NE的积的输出作为输入变量、并将基准效率ηer作为输出变量的映射数据的状态下，通过CPU72对基准效率ηer进行映射运算。

接着，CPU112将如下的值代入到奖励r(S54)，该值是对累计值乘以系数K而得到的，该累计值是从将效率ηe(k)除以基准效率ηer(k)后的值减去“1”而得到的值的累计值。根据该处理，在效率ηe比基准效率ηer大的情况下，与效率ηe小于基准效率ηer的情况相比，奖励r成为较大的值。

在此，CPU112使系数K为根据道路变量VR而可变。详细而言，在未表示为道路变量VR是合流部的情况下，系数K被设定比表示为道路变量VR是合流部的情况下的该系数K大的值。通过该设定，在地图上的位置不是合流部的情况下，降低给与预定奖励时的效率的基准。即，即使是得到相同的奖励时，在不是合流部的情况下，效率ηe也变低。由此，当在不是合流部的情况下选择效率ηe高的工作点时，与是合流部的情况相比，奖励r被设定为大的值。

接着，CPU112判定预定期间内的任意的转矩Trq与转矩指令值Trq＊之差的绝对值为规定量ΔTrq以下这一条件(a)与加速度Gx为下限值GxL以上且为上限值GxH以下这一条件(b)的逻辑积是否为真(S56)。

在此，CPU112根据情节(episode)开始时的加速器操作量PA的每单位时间的变化量ΔPA和道路变量VR的值，以可变的方式设定规定量ΔTrq。即，CPU112在变化量ΔPA的绝对值大的情况下作为是与过渡时有关的情节，将规定量ΔTrq设定为比稳态时的情况下的该规定量ΔTrq大的值。另外，CPU112在不是合流部的情况下，将规定量ΔTrq设定为比合流部的情况下的该规定量ΔTrq大的值。

另外，CPU112根据情节开始时的加速器操作量PA的变化量ΔPA，以可变的方式设定下限值GxL。即，CPU112在为与过渡时有关的情节且变化量ΔPA为正的情况下，将下限值GxL设定为比与稳态时有关的情节的情况下的该下限值GxL大的值。另外，CPU112在为与过渡时有关的情节且变化量ΔPA为负的情况下，将下限值GxL设定为比与稳态时有关的情节的情况下的该下限值GxL小的值。

另外，CPU72根据情节开始时的加速器操作量PA的每单位时间的变化量ΔPA，以可变的方式设定上限值GxH。即，CPU72在为与过渡时有关的情节且变化量ΔPA为正的情况下，将上限值GxH设定为比与稳态时有关的情节的情况下的该上限值GxH大的值。另外，CPU72在为与过渡时有关的情节且变化量ΔPA为负的情况下，将上限值GxH设定为比与稳态时有关的情节的情况下的该上限值GxH小的值。

另外，CPU112根据道路变量VR的值，以可变的方式设定下限值GxL和上限值GxH。详细而言，CPU112设定下限值GxL和上限值GxH以使得在为合流部的情况下，过渡时的加速度Gx的绝对值成为比不是合流部的情况下的该绝对值更大的值。

在条件(a)与条件(b)的逻辑积为真的情况下(S56：是)，CPU72对奖励r加上“K1·n”(S58)。在条件(a)与条件(b)的逻辑积为假的情况下(S56：否)，CPU72从奖励r减去“K1·n”(S60)。“n”表示预定期间中的效率ηe的采样数。S56～S60的处理是在满足与加速器响应有关的基准的情况下给与比不满足与加速器响应有关的基准的情况下大的奖励的处理。

在S58、S60的处理完成的情况下，CPU112判定是否满足加速器操作量PA的预定期间中的最大值为阈值PAth以上这一条件(c)(S62)。在此，CPU112在不是合流部的情况下，将阈值Path设定为比合流部的情况下的该阈值Path大的值。在满足条件(c)的情况下(S62：是)，CPU112从奖励r减去“K2·n”(S64)。即，在加速器操作量PA过度地大的情况下，用户有可能会感觉转矩不足，因此，为了加以惩罚而给与负的奖励。

在S64的处理完成的情况下、在S62的处理中作出否定判定的情况下，CPU112对存储于图3的存储装置76的关系规定数据DR进行更新。在本实施方式中，使用ε软同策略型蒙特卡罗法(ε-soft on-policy Monte Carlo method)。

CPU112对由通过S50的处理读出的各状态和所对应的行动的组确定的收益R(Sj，Aj)分别加上奖励r(S66)。“R(Sj，Aj)”是对将状态集合Sj的要素之一作为状态、并将行动集合Aj的要素之一作为行动的收益R进行了总括的记载。接着，对由通过S50的处理读出的各状态和所对应的行动的组确定的各个收益R(Sj，Aj)进行平均化，并代入到所对应的行动价值函数Q(Sj，Aj)(S68)。在此，平均化设为对通过S68的处理算出的收益R除以进行了S68的处理的次数的处理即可。收益R的初始值设为零即可。

接着，CPU112关于通过S50的处理读出的状态，将如下行动分别代入到行动Aj＊(S70)，该行动是所对应的行动价值函数Q(Sj，A)中的、行动价值函数Q的值成为最大值时的节气门开口度指令值TA＊和变速比指令值GR＊的组。“A”表示可取的任意的行动。行动Aj＊根据通过S50的处理读出的状态的种类而成为互不相同的值。在此，对标记进行简化，用相同的标号记载了行动Aj＊。

在S72的处理完成的情况下，CPU112暂时结束图5所示的一系列处理。

返回图4，当S42的处理完成时，CPU112判定行动价值函数Q是否已收敛(S44)。在此，在S42的处理的行动价值函数Q的更新量成为预定值以下的连续次数达到预定次数的情况下，判定为行动价值函数Q已收敛即可。在行动价值函数Q未收敛的情况下(S44：否)、在S40的处理中作出否定判定的情况下，CPU112返回到S32的处理。在行动价值函数Q已收敛的情况下(S44：是)，CPU112判定关于合流部和合流部以外这两方是否在S44的处理中作出肯定判定(S46)。

在关于合流部和合流部以外中的任一方在S44的处理中未作出肯定判定的情况下(S46：否)，CPU112返回到S30的处理，对道路变量VR代入尚未设定的值。在S46的处理中作出肯定判定的情况下，CPU112暂时结束图4所示的一系列处理。

图6表示生成装置110执行的处理中的、特别是基于通过图4的处理进行了学习的行动价值函数Q生成映射数据DM的处理的步骤。图6所示的处理通过CPU112执行存储于ROM114的学习程序114a来实现。

在图6所示的一系列处理中，CPU112首先设定道路变量VR的值(S80)。然后，CPU112选择映射数据DM的成为输入变量的值的多个状态s中的一个(S82)。接着，CPU112关于由高响应规定数据DR1和高效率规定数据DR2中的、与通过S80的处理设定的道路变量VR的值对应的一方的数据规定的状态s所对应的行动价值函数Q(s，A)，选择使行动价值函数Q的值最大的行动a(S84)。即，在此通过贪婪策略选择行动a。接着，CPU112使状态s和行动a的组存储于存储装置116(S86)。

接着，CPU112判定是否通过S82的处理选择了映射数据DM的输入变量的值的全部(S88)。并且，在映射数据DM的输入变量的值中存在未被选择的值的情况下(S88：否)，CPU112返回到S82的处理。在映射数据DM的输入变量的值的全部被选择了的情况下(S88：是)，CPU112判定是否通过S80的处理设定了作为道路变量VR的值可取的全部值(S90)。在作为道路变量VR的值存在尚未设定的值的情况下(S90：否)，CPU112返回到S80的处理来对该值进行设定。

在作为道路变量VR的值已设定全部值的情况下(S90：是)，CPU112生成高响应映射数据DM1和高效率映射数据DM2(S92)。在此，将与映射数据DM的输入变量的值为状态s的情况对应的输出变量的值作为所对应的行动a。

在S92的处理完成的情况下，CPU112暂时结束图6所示的一系列处理。

在此，对本实施方式的作用和效果进行说明。

在图3所示的系统中，CPU112通过强化学习对行动价值函数Q进行学习。并且，在行动价值函数Q的值收敛的情况下，视为进行了适当的行动的学习以使得满足关于能量利用效率要求的基准和关于加速器响应要求的基准。并且，CPU112关于成为映射数据DM的输入变量的各个状态，选择使行动价值函数Q最大化的行动，将状态和行动的组存储于存储装置116。接着，CPU112基于存储于存储装置116的状态和行动的组，生成映射数据DM。由此，能够以熟练人员的工时不过度地变大的方式设定与加速器操作量PA、车速V以及变速比GR相应的适当的节气门开口度指令值TA＊和变速比指令值GR＊。

特别是，在第1实施方式中，根据地图上的位置是否为合流部，分别对与状态s相应的行动a进行了学习。详细而言，给与了奖励以使得不是合流部的一方使对于加速器响应的基准宽松、而使效率ηe高的一方占优势。由此，在高效率规定数据DR2的学习时，若即使相对地降低加速器响应、也满足条件(a)和条件(b)，则能够得到通过S58的处理获得的奖励，另外，尽量提高效率ηe在增大总计的奖励上是有利的。因此，能够使高效率映射数据DM2为能够进行使得能量利用效率变高的控制的数据。

另一方面，在高响应规定数据DR1的学习时，虽然提高了效率ηe，但通过S54的处理得到的奖励却变小，因此，为了增大总计的奖励，若满足条件(a)和条件(b)，则能够得到通过S58的处理获得的奖励，因此，变得有利。因此，能够使高响应映射数据DM1为能够进行对于用户的加速器操作的响应性良好的控制的数据。

根据第1实施方式，能进一步得到以下记载的作用和效果。

(1)在控制装置70具备的存储装置76中存储有映射数据DM，而不是行动价值函数Q等。由此，CPU72基于使用了映射数据DM的映射运算，设定节气门开口度指令值TA＊和变速比指令值GR＊。由此，与执行选择行动价值函数Q中的成为最大值的行动价值函数Q的处理的情况相比，能够减轻运算负荷。

(2)行动价值函数Q的自变量包含了加速器操作量PA的时间序列数据。由此，与关于加速器操作量PA而仅将单一采样值作为自变量的情况相比，能够相对于加速器操作量PA的各种各样的变化来精细地对行动a的值进行调整。

(3)行动价值函数Q的自变量包含了节气门开口度指令值TA＊自身。由此，与将对节气门开口度指令值TA＊的行为进行了模型化后的模型式的参数等作为与节气门开口度有关的自变量的情况相比，容易提高基于强化学习的搜索的自由度。

＜第2实施方式＞

以下，以与第1实施方式的不同点为中心，参照附图对第2实施方式进行说明。

图7表示第2实施方式涉及的车辆VC1的驱动系统和控制装置。图7中，对与图1所示的部件对应的部件赋予了同一标号。

如图7所示，在第2实施方式中，除了控制程序74a之外，在ROM74中还存储有学习程序74b。另外，在存储装置76中未存储映射数据DM，取而代之，存储有关系规定数据DR，另外，存储有转矩输出映射数据DT。在此，关系规定数据DR是通过图4的处理进行了学习的已学习的数据。关系规定数据DR是将状态s设为加速器操作量PA的时间序列数据、车速V以及变速比GR、并将行动a设为节气门开口度指令值TA＊和变速比指令值GR＊的数据。关系规定数据DR包括高响应规定数据DR1和高效率规定数据DR2。另外，由转矩输出映射数据DT规定的转矩输出映射是与将转速NE、填充效率η以及点火正时作为输入、并将转矩Trq作为输出的神经网络等的已学习模型有关的数据。例如，转矩输出映射数据DT设为在执行图4的处理时将通过S38的处理取得的转矩Trq作为教师数据来进行了学习的数据即可。填充效率η通过CPU72基于转速NE和吸入空气量Ga来算出即可。

图8表示第2实施方式涉及的控制装置70执行的处理的步骤。图8所示的处理通过CPU72以预定周期反复执行存储于ROM74的控制程序74a和学习程序74b来实现。在图8中，对与图4所示的处理对应的处理赋予同一步骤编号。

在图8所示的一系列处理中，首先，CPU72执行图2的S10、S12的处理。在地图上的位置为合流部的情况下(S12：是)，CPU72将“1”代入到道路变量VR，并且，选择高响应规定数据DR1(S100)。在不是合流部的情况下(S12：否)，CPU72将“2”代入到道路变量VR，并且，选择高效率规定数据DR2(S102)。在S100、S102的处理完成的情况下，CPU112取得加速器操作量PA的时间序列数据、当前的变速比GR以及车速V来作为状态s(S32a)。然后，CPU112执行图4的S34～S42的处理。在S40的处理中作出否定判定的情况下、完成S42的处理的情况下，CPU72暂时结束图8所示的一系列处理。S10、S12、S100、S102、S32a、S34～S40的处理通过CPU72执行控制程序74a来实现。S42的处理通过CPU72执行学习程序74b来实现。

这样，根据第2实施方式，通过在控制装置70安装关系规定数据DR和学习程序74b，与第1实施方式的情况相比，能够使学习频度提高。

＜第3实施方式＞

以下，以与第2实施方式的不同点为中心，参照附图对第3实施方式进行说明。

在第3实施方式中，在车辆VC1外执行关系规定数据DR的更新。

在图9中表示第3实施方式涉及的执行强化学习的控制系统的构成。在图9中，对与图1所示的部件对应的部件赋予同一标号。

图9所示的车辆VC1内的控制装置70中的ROM74存储有控制程序74a，但未存储学习程序74b。另外，控制装置70具备通信机77。通信机77是用于经由车辆VC1外部的网络120与数据解析中心130进行通信的设备。

数据解析中心130对从多个车辆VC1、VC2、……发送的数据进行解析。数据解析中心130具备CPU132、ROM134、能电重写的非易失性存储器(存储装置136)、外围电路138以及通信机137。CPU132、ROM134、存储装置136、外围电路138通过局域网络139以能够进行通信的方式相连接。在ROM134中存储有学习程序134a。在存储装置136中存储有关系规定数据DR。

在图10A和图10B中表示第3实施方式涉及的强化学习的处理步骤。图10A所示的处理通过CPU72执行存储于图9所示的ROM74的控制程序74a来实现。图10B所示的处理通过CPU132执行存储于ROM134的学习程序134a来实现。在图10A和图10B中，对与图8所示的处理对应的处理赋予同一步骤编号。以下，沿着强化学习的时间序列对图10A和图10B所示的处理进行说明。

在图10A所示的一系列处理中，首先，CPU72执行S10、S12、S100、S102、S32a、S34～S38的处理。在经过了预定期间的情况下(S40：是)，CPU72通过对通信机77进行操作，发送关系规定数据DR的更新处理所需要的数据(S110)。在此，被作为发送对象的数据包括预定期间内的道路变量VR的值、转速NE、转矩指令值Trq＊、转矩Trq及加速度Gx的时间序列数据、状态集合Sj及行动集合Aj。

与此相对，如图10B所示，CPU132接收被发送来的数据(S120)，基于所接收到的数据，对关系规定数据DR进行更新(S42)。并且，CPU132判定关系规定数据DR的更新次数是否为预定次数以上(S122)。在更新次数为预定次数以上的情况下(S122：是)，CPU132对通信机137进行操作，向发送了通过S120的处理接收到的数据的车辆VC1发送关系规定数据DR(S124)。在完成S124的处理的情况下、在S122的处理中作出否定判定的情况下，CPU132暂时结束图10B所示的一系列处理。

与此相对，如图10A所示，CPU72判定是否存在更新数据(S112)。在存在更新数据的情况下(S112：是)，CPU72接收被更新后的关系规定数据DR(S114)。并且，CPU将在S34的处理中利用的关系规定数据DR重写为所接收到的关系规定数据DR(S116)。在完成S116的处理的情况下、在S40、S112的处理中作出否定判定的情况下，CPU72暂时结束图10A所示的一系列处理。

这样，在车辆VC1的外部进行关系规定数据DR的更新处理，因此，能够减轻控制装置70的运算负荷。进一步，若是在S120的处理中接收来自多个车辆VC1、VC2的数据并进行S42的处理，则能够容易地增大学习中使用的数据数量。

＜对应关系＞

上述实施方式中的事项与各权利要求一栏所记载的事项的对应关系为如下所述。以下，按权利要求的项号表示了上述的对应关系。[1、2]执行装置以及存储装置在图7中分别对应于CPU72以及ROM74和存储装置76，在图3中分别对应于CPU112以及ROM114和存储装置116，在图9中对应于CPU72、132以及ROM74、134和存储装置76、136。取得处理对应于图4的S30、S32、S38的处理、图8以及图10A的S10、S12、S100、S102、S32a、S38的处理。操作处理对应于S36的处理，奖励算出处理对应于S52～S64的处理，更新处理对应于S66～S72的处理。更新映射对应于由学习程序74b中的执行S66～S72的处理的指令规定的映射。变更处理对应于在S54的处理中根据道路变量VR来使系数K为可变、在S56的处理根据道路变量VR来使条件(a)和条件(B)为可变、在S62的处理中根据道路变量VR来使阈值Path为可变。[3]控制用映射数据对应于映射数据DM。[4]执行装置以及存储装置分别对应于图7中的CPU72以及ROM74和存储装置76。[5～7]第1执行装置对应于CPU72以及ROM74，第2执行装置对应于CPU132以及ROM134。

＜其他实施方式＞

上述各实施方式可以如以下那样进行变更来实施。上述各本实施方式以及以下的变更例可以在技术上不矛盾的范围内相互组合来实施。

“关于道路变量”

对与车辆行驶的道路有关的信息进行表示的道路变量不限于表示地图上的位置是否为合流部的变量。道路变量也可以是表示地图上的位置是一般道路、还是高速道路的变量。另外，道路变量也可以是对与道路坡度有关的信息、与道路的曲率有关的信息进行表示的变量。

“关于变更处理”

在S56的处理中设为了根据是否为合流部来使条件(a)和条件(b)为可变，但不限于此。也可以根据是否为合流部，使S58、S60的处理中的系数K1为可变。即，若是在不是合流部的情况下减小系数K1，则满足条件(a)和条件(b)在增大总计的奖励上不那么有利，因此，容易进行提高效率ηe的学习。

在S62的处理中设为了根据是否为合流部来使阈值Path为可变，但不限于此。也可以根据是否为合流部来使S64的处理中的系数K2为可变。即，若是在不是合流部的情况下减小系数K2，则在S62的处理中作出否定判定在增大总计的奖励上不那么有利，因此，容易进行提高效率ηe的学习。

不限于仅执行如S56、S62的处理那样变更对于加速器响应的基准的处理、和如上述变更例那样对与是否满足加速器响应的基准相应的奖励进行变更的处理中的某一方，也可以执行这两方。

在上述构成中，在合流部中，减小系数K，并且，使条件(a)～条件(c)变得严格，但不限于此。也可以是仅减小系数K。即使通过该处理，提高效率ηe在得到大的奖励上也不是好办法，因此，提高加速器响应的行动容易成为贪婪行动。

也可以在不是合流部的情况下设为变更为不能满足条件(a)和条件(b)的条件、并且在S60的处理中对奖励r加上零的处理，在合流部中，使S54的处理中的基准效率ηer为不可取的高效率，并且，将累计值和零中的大的一方代入到奖励r。这等效于：在不是合流部的情况下，不执行在加速器响应满足基准的情况下给与比加速器响应不满足基准的情况下大的奖励的处理，在合流部中不执行在能量利用效率满足基准的情况下给与比能量利用效率不满足基准的情况下大的奖励的处理。因此，也可以设为如下处理：在不是合流部的情况下，不执行在加速器响应满足基准的情况下给与比加速器响应不满足基准的情况下大的奖励的处理，在合流部中不执行在能量利用效率满足基准的情况下给与比能量利用效率不满足基准的情况下大的奖励的处理。对此，也可视为对在加速器响应满足基准的情况下给与比加速器响应不满足基准的情况下大的奖励的处理、和在能量利用效率满足基准的情况下给与比能量利用效率不满足基准的情况下大的奖励的处理中的至少一个处理进行变更的处理。

也可以设为如下的奖励体系：如“关于道路变量”一栏所记载的那样，在对道路变量是一般道路、还是高速道路进行识别的变量的情况下，当为高速道路时设为使对于加速器响应的要求事项优先的奖励，当为一般道路时设为使对于能量利用效率的要求事项优先的奖励。根据这样进行了学习的关系规定数据DR，能够顺畅地进行高速道路中的超车等，能够在一般道路中提高能量利用效率。

也可以设为如下的奖励体系：如“关于道路变量”一栏所记载的那样，在道路变量为表示与道路坡度有关的信息的变量的情况下，在坡道中设为使对于加速器响应的要求事项优先的奖励，在不是坡道时设为使对于能量利用效率的要求事项优先的奖励。根据这样进行了学习的关系规定数据DR，能够在坡道中迅速地实现用户要求的转矩，另一方面，能够在坡道以外提高能量利用效率。

作为对根据道路变量给与预定奖励时的基准进行变更的变更处理，不限于在给与预定奖励上对满足多个要求事项中的哪个要求事项是有利的进行变更的处理。如“关于道路变量”一栏所记载的那样，在道路变量为表示与道路坡度有关的信息的变量的情况下，也可以在坡道中使转矩指令值Trq＊为比那以外的该转矩指令值Trq＊大的值。根据这样进行了学习的关系规定数据DR，能够实现在坡道中也通过与平坦的道路同等的加速器操作获得同等的加速感的控制。

“关于能量利用效率”

在上述实施方式中，仅基于工作点来对能量利用效率进行了定量化，但不限于此。如下述“关于行动变量”一栏所记载的那样，在行动变量包括点火正时的情况，当所采用的点火正时从MBT偏离时，根据该偏离量来对能量利用效率进行减少修正即可。另外，在行动变量包括与空燃比控制有关的变量的情况下，当所采用的空燃比从预定空燃比偏离时，根据该偏离量来对能量利用效率进行修正即可。

“关于表形式的数据的维度削减”

作为表形式的数据的维度削减方法，不限于在上述实施方式中例示的方法。例如加速器操作量PA很少会成为最大值，因此，关于加速器操作量PA成为规定量以上的状态，也可以不定义行动价值函数Q，对加速器操作量PA成为规定量以上的情况下的节气门开口度指令值TA＊等另外进行适配。另外，例如也可以通过从行动可取的值去掉节气门开口度指令值TA＊成为规定值以上的值等来进行维度削减。

“关于关系规定数据”

在上述实施方式中将行动价值函数Q设为了表形式的函数，但不限于此。例如，也可以使用函数近似器。

也可以代替使用行动价值函数Q，通过将状态s和行动a作为自变量、并将采取行动a的概率作为因变量的函数近似器来表现策略π，根据奖励r来对确定函数近似器的参数进行更新。在该情况下，既可以具备与道路变量VR的值相应的各个函数近似器，另外，也可以在作为单一的函数近似器的自变量的状态s包括道路变量VR。

“关于操作处理”

如“关于关系规定数据”一栏所记载的那样，在将行动价值函数设为函数近似器的情况下，将关于上述实施方式中的表型式的函数的成为自变量的行动的、离散的值的全部组，与状态s一起输入到行动价值函数Q，由此，选择使行动价值函数Q最大化的行动a即可。在该情况下，在主要将所特定的行动a采用于操作的同时，以预定概率对除此之外的行动进行选择即可。

如“关于关系规定数据”一栏所记载的那样，在将策略π设为如下的函数近似器的情况下，基于由策略π表示的概率来选择行动a即可，该函数近似器将状态s和行动a作为自变量、并将采取行动a的概率作为因变量。

“关于更新映射”

在S66～S72的处理中，例示了基于ε软同策略型蒙特卡罗法的处理，但不限于此。例如，也可以是基于离策略型蒙特卡罗法(off-policy Monte Carlo method)的处理。当然，不限于蒙特卡罗法，例如也可以使用离策略型TD法，另外，例如也可以使用如SARSA法那样的同策略型TD法，另外，例如也可以使用资格迹法(eligibility trace method)来作为同策略型的学习。

如“关于关系规定数据”一栏所记载的那样，在使用函数近似器来表现策略π、基于奖励r直接对其进行更新的情况下，使用策略梯度法等来构成更新映射即可。

不限于仅将行动价值函数Q和策略π中的某一方作为基于奖励r的直接的更新对象，例如，也可以如Actor-Critic法那样分别对行动价值函数Q和策略π进行更新。另外，在Actor-Critic法中，也可以代替行动价值函数Q而将价值函数V作为更新对象。

“关于行动变量”

在上述实施方式中，作为与作为行动变量的节气门的开口度有关的变量，例示了节气门开口度指令值TA＊，但不限于此。例如，也可以用无用时间和二阶滞后滤波器表现节气门开口度指令值TA＊对于加速器操作量PA的响应性，将无用时间、规定二阶滞后滤波器的两个变量的合计三个变量作为与节气门的开口度有关的变量。但是，在该情况下，对于状态变量，优选代替加速器操作量PA的时间序列数据而设为加速器操作量PA的每单位时间的变化量。

在上述实施方式中，作为行动变量，例示了与节气门的开口度有关的变量和与变速比有关的变量，但不限于此。在与节气门的开口度有关的变量和与变速比有关的变量之外，也可以还使用与点火正时有关的变量、与空燃比控制有关的变量。

如“关于内燃机”一栏所记载的那样，在为压缩着火式的内燃机的情况下，使用与喷射量有关的变量来代替与节气门的开口度有关的变量即可。另外，在此基础上，也可以使用与喷射正时有关的变量、与一个燃烧周期中的喷射次数有关的变量、与用于一个燃烧周期中的一个气缸的在时间序列上相邻的2个燃料喷射中的一方的结束定时与另一方的开始定时之间的时间间隔有关的变量。

在变速装置50为有级变速装置的情况下，也可以将用于通过油压对离合器的接合状态进行调整的电磁阀的电流值等作为行动变量。

如下述“关于电子设备”一栏所记载的那样，在与行动变量相应的操作的对象包括旋转电机的情况下，在行动变量包含旋转电机的转矩、电流即可。即，作为与推力生成装置的负荷有关的变量即负荷变量，不限于与节气门的开口度有关的变量、喷射量，也可以是旋转电机的转矩、电流。

如下述“关于电子设备”一栏所记载的那样，在与行动变量相应的操作的对象包括锁止离合器42的情况下，在行动变量包含表示锁止离合器42的接合状态的变量即可。

“关于状态”

在上述实施方式中，将加速器操作量PA的时间序列数据设为了由以等间隔采样到的6个值构成的数据，但不限于此。只要是由互不相同的采样定时的2个以上的采样值构成的数据即可，此时，优选是由3个以上的采样值构成的数据、采样间隔为等间隔的数据。

作为与加速器操作量有关的状态变量，不限于加速器操作量PA的时间序列数据，例如也可以如“关于行动变量”一栏所记载的那样为加速器操作量PA的每单位时间的变化量等。

如“关于行动变量”一栏所记载的那样，在将电磁阀的电流值作为行动变量的情况下，在状态包括变速装置的输入轴52的转速、输出轴54的转速、由电磁阀进行调整的油压即可。另外，如“关于行动变量”一栏所记载的那样，在将旋转电机的转矩、输出作为行动变量的情况下，在状态包括电池的充电率、温度即可。另外，如“关于行动变量”一栏所记载的那样，在行动包括压缩机的负荷转矩、空调装置的消耗电力的情况下，在状态包括车室内的温度即可。

“关于奖励算出处理”

作为在能量利用效率高的情况下给与比能量利用效率低的情况下大的奖励的处理，不限于取成为基准的效率与实际的工作点下的效率之比和“1”的差的处理，也可以是取成为基准的效率与实际的工作点下的效率之差的处理。

作为在满足与加速器响应有关的基准的情况下给与比不满足与加速器响应有关的基准的情况下大的奖励的处理，不限于根据条件(a)和条件(b)的逻辑积是否为真来给与奖励的处理、在满足条件(c)的情况下给与小的奖励的处理。关于根据条件(a)和条件(b)的逻辑积是否为真来给与奖励的处理、和在满足条件(c)的情况下给与小的奖励的处理，也可以仅包括根据条件(a)和条件(b)的逻辑积是否为真来给与奖励的处理等的任一方。另外，也可以代替根据条件(a)和条件(b)的逻辑积是否为真来给与奖励的处理，而执行根据是否满足条件(a)来给与奖励的处理、和根据是否满足条件(b)来给与奖励的处理。

也可以代替在满足条件(a)的情况下一律给与相同的奖励而设为如下处理：在转矩Trq与转矩指令值Trq＊之差的绝对值小的情况下给与比该绝对值大的情况下更大的奖励。另外，也可以代替在不满足条件(a)的情况下一律给与相同的奖励而设为如下处理：在转矩Trq与转矩指令值Trq＊之差的绝对值大的情况下给与比该绝对值小的情况下更小的奖励。

也可以代替在满足条件(b)的情况下一律给与相同的奖励而设为如下处理：根据加速度Gx的大小来使奖励的大小为可变。另外，也可以代替在不满足条件(b)的情况下一律给与相同的奖励而设为如下处理：根据加速度Gx的大小来使奖励的大小为可变。

不限于通过在满足与加速器响应有关的基准的情况下给与比不满足该基准的情况下大的奖励的处理、和在能量利用效率满足基准的情况下给与比能量利用效率不满足基准的情况下大的奖励的处理构成奖励算出处理。也可以由在满足与加速器响应有关的基准的情况下该与比不满足该基准的情况下大的奖励的处理、和在车室内的状态满足基准的情况下该与不满足该基准的情况下大的奖励的处理构成奖励算出处理。在此，作为在车室内的状态满足基准的情况下该与比不满足该基准的情况下大的奖励的处理，也可以是在车辆的振动强度为预定值以下的情况下该与比超过预定值的情况下大的奖励等的、在车辆的振动强度小的情况下给与比车辆振动的强度大的情况下大的奖励的处理。另外，也可以在车辆的噪声强度为预定值以下的情况下给与比超过预定值的情况下大的奖励等的、在车辆的噪声强度小的情况下给与比车辆的噪声强度大的情况下大的奖励的处理。

也可以是在满足与加速器响应有关的基准的情况下给与比不满足与加速器响应有关的基准的情况下大的奖励的处理、和在排气特性满足基准的情况下给与比排气特性不满足基准的情况下大的奖励的处理。另外，也可以是在能量利用效率满足基准的情况下给与比能量利用效率不满足基准的情况下大的奖励的处理、和在排气特性满足基准的情况下给与比排气特性不满足基准的情况下大的奖励处理。另外，也可以包括在满足与加速器响应有关的基准的情况下给与比不满该基准的情况下大的奖励的处理、在能量利用效率满足基准的情况下给与比能量利用效率不满足基准的情况下大的奖励的处理、以及在排气特性满足基准的情况下给与比排气特性不满足基准的情况下大的奖励的处理这3个处理。总之，通过在基于能够互相背反的多个基准来给予奖励的情况下，根据道路变量来变更奖励的给与方式，能够在正在行驶的道路中学习更适当的关系规定数据。

如“关于行动变量”一栏所记载的那样，在将变速装置50的电磁阀的电流值作为行动变量的情况下，在奖励算出处理中包括以下的(a)～(c)这三个处理中的至少一个处理即可。

(a)是如下处理：在通过变速装置进行的变速比的切换所需要的时间为预定时间以内的情况下给与比超过预定时间的情况下大的奖励。

(b)是如下处理：在变速装置的输入轴52的转速的变化速度的绝对值为输入侧预定值以下的情况下给与比超过输入侧预定值的情况下大的奖励。

(c)是如下处理：在变速装置的输出轴54的转速的变化速度的绝对值为输出侧预定值以下的情况下给与比超过输出侧预定值的情况下大的奖励。

此外，上述(a)相当于在加速器响应高的情况下给与比加速器响应低的情况下大的奖励的处理。上述(b)、(c)相当于在振动小的情况下给与比振动大的情况下大的奖励的处理。换言之，相当于在车室内的状态满足基准的情况下给与比车室内的状态不满足基准的情况下大的奖励的处理。

如“关于行动变量”一栏所记载的那样，在将旋转电机的转矩、输出作为行动变量的情况下，也可以包括在电池的充电率处于预定范围内的情况下给与比电池的充电率不处于预定范围内的情况下大的奖励的处理、在电池的温度处于预定范围内的情况下给与比电池的温度不处于预定范围内的情况下大的奖励的处理。另外，如“关于行动变量”一栏所记载的那样，在行动变量包括压缩机的负荷转矩、空调装置的消耗电力的情况下，也可以添加在车室内的温度处于预定范围内的情况下给与比车室内的温度不处于预定范围内的情况下大的奖励的处理。该处理成为在车室内的状态满足基准的情况下给与比车室内的状态不满足基准的情况下大的奖励的处理。

“关于车辆用控制数据的生成方法”

在图4的S34的处理中，基于行动价值函数Q来决定了行动，但不限于此，也可以以等概率选择可取的全部行动。

“关于控制用映射数据”

作为通过将车辆的状态与使期待收益最大化的行动变量的值一对一地关联来将车辆的状态作为输入、并输出使期待收益最大化的行动变量的值的控制用映射数据，不限于映射数据，也可以是函数近似器。这能够通过如下处理来实现，该处理为：如“关于更新映射”一栏所记载的那样，在使用策略坡度法等的情况下，用对可取行动变量的值的概率进行表示的高斯分布表现策略π，用函数近似器表现其平均值，对表现平均值的函数近似器的参数进行更新，将学习后的平均值作为控制用映射数据。在此，将函数近似器输出的平均值视为使期待收益最大化的行动变量的值。此时，也可以按道路变量VR的值来分别设置函数近似器，但也可以在单一的函数近似器的自变量中的状态s包括道路变量VR。

“关于电子设备”

作为成为与行动变量相应的操作的对象的内燃机的操作部，不限于节气门14，也可以是点火装置26、燃料喷射阀16。

成为与行动变量相应的操作的对象的电子设备中的、推力生成装置与驱动轮之间的驱动系统装置不限于变速装置50，也可以是锁止离合器42。

也可以如下述“关于推力生成装置”一栏所记载的那样，在具备旋转电机来作为推力生成装置的情况下，使成为与行动变量相应的操作的对象的电子设备为连接于旋转电机的变换器等的电力变换电路。当然，不限于车载驱动系统的电子设备，也可以是车载空调装置等。在该情况下，当车载空调装置由推力生成装置的旋转动力驱动时，推力生成装置的动力中的被供给至驱动轮60的动力取决于车载空调装置的负荷转矩，因此，在行动变量包括车载空调装置的负荷转矩等也是有效的。另外，即使车载空调装置不利用推力生成装置的旋转动力，也会影响到能量利用效率，因此，在行动变量中添加车载空调装置的消耗电力是有效的。

“关于车辆用控制系统”

在图10A和图10B所示的例子中，在数据解析中心130中执行了S42的全部处理，但不限于此，也可以在数据解析中心130中执行S66～S72的处理，但不执行作为奖励的算出处理的S52～S64的处理，在S110的处理中发送奖励的算出结果。

在图10A和图10B所示的例子中，在车辆侧执行了基于策略π决定行动的处理(S34的处理)，但不限于此，也可以从车辆VC1发送通过S32a的处理取得的数据，在数据解析中心130中使用被发送来的数据来决定行动a，向车辆VC1发送所决定的行动。

作为车辆用控制系统，不限于由控制装置70和数据解析中心130构成的系统，也可以使用用户的便携终端来代替数据解析中心130。另外，也可以由控制装置70以及数据解析中心130和便携终端构成车辆用控制系统。这可以通过便携终端执行S34的处理来实现。

“关于执行装置”

作为执行装置，不限于具备CPU72(112、132)和ROM74(114、134)来执行软件处理的装置。例如，也可以具备对在上述实施方式中被进行了软件处理的部分的至少一部分进行硬件处理的ASIC等的专用的硬件电路。即，执行装置是以下的(a)～(c)中的任一结构即可。(a)具备按照程序执行全部的上述处理的处理装置和存储程序的ROM等的程序保存装置。(b)具备按照程序来执行上述处理的一部分的处理装置以及程序保存装置、和执行其余的处理的专用的硬件电路。(c)具备执行全部的上述处理的专用的硬件电路。在此，具备处理装置和程序保存装置的软件执行装置、专用的硬件电路也可以是多个。

“关于存储装置”

在上述实施方式中，使存储关系规定数据DR的存储装置和存储学习用程序74b、114a、控制程序74a的存储装置(ROM74、114、134)为不同的存储装置，但不限于此。

“关于内燃机”

作为内燃机，不限于火花点火式内燃机，也可以是使用轻油等来作为燃料的压缩着火式内燃机等。

“关于推力生成装置”

作为搭载于车辆的推力生成装置，不限于仅是内燃机，也可以如混合动力车那样为内燃机和旋转电机。另外，也可以如电动汽车、燃料电池车那样推力生成装置仅为旋转电机。

Claims

1.一种车辆用控制数据的生成方法，是使用了存储装置和执行装置的车辆用控制数据的生成方法，包括：

将关系规定数据存储于所述存储装置，所述关系规定数据对车辆的状态与行动变量的关系进行规定，所述行动变量是与所述车辆内的电子设备的操作有关的行动变量；和

在将所述关系规定数据存储在了所述存储装置的状态下，通过所述执行装置执行取得处理、操作处理、奖励算出处理以及更新处理，

所述取得处理为，取得基于传感器的检测值的所述车辆的状态、和确定所述车辆行驶的道路的道路变量，

所述操作处理为，对所述电子设备进行操作，

所述奖励算出处理为，基于通过所述取得处理取得的所述车辆的状态，使所述车辆的特性满足基准的情况下给与的奖励比所述车辆的特性不满足预定基准的情况下给与的奖励大，

所述更新处理为，将通过所述取得处理取得的所述车辆的状态、在所述电子设备的操作中使用了的所述行动变量的值以及与所述电子设备的操作对应的所述奖励作为向预先确定的更新映射的输入，对所述关系规定数据进行更新，

所述更新映射输出以使关于按照所述关系规定数据操作所述电子设备的情况下的所述奖励的期待收益增加的方式进行了更新的所述关系规定数据，

所述奖励算出处理包括如下的变更处理：相对于在所述道路变量的值为第1值的情况下所述车辆具有预定特性时所给予的所述奖励，变更在所述道路变量的值为第2值的情况下所述车辆具有所述预定特性时所给予的奖励。

2.根据权利要求1所述的车辆用控制数据的生成方法，

所述道路变量是对是从一般道路向高速道路合流的合流部这一情况以及是一般道路这一情况进行识别的变量，

所述奖励算出处理包括如下两个处理：

在满足与加速器响应有关的基准的情况下，相比于不满足与所述加速器响应有关的基准的情况，给予较大奖励的处理；和

在能量利用效率高的情况下，相比于所述能量利用效率低的情况，给予较大奖励的处理，

所述变更处理包括如下处理：对所述两个处理中的至少一个处理进行变更，以使得在所述合流部提高所述加速器响应有利于得到比在所述一般道路提高所述加速器响应大的奖励。

3.根据权利要求1或者2所述的车辆用控制数据的生成方法，还包括：

通过所述执行装置执行如下处理，该处理为基于通过所述更新处理更新后的所述关系规定数据，将所述车辆的状态与使所述期待收益最大化的所述行动变量的值相关联，由此生成将所述车辆的状态作为输入而输出使所述期待收益最大化的所述行动变量的值的控制用映射数据。

4.一种车辆用控制装置，

执行权利要求1或者2所述的车辆用控制数据的生成方法，所述车辆用控制装置具备在所述车辆用控制数据的生成方法中所使用的所述存储装置和所述执行装置，

所述执行装置所执行的所述操作处理包括如下处理：基于所述关系规定数据，按照与所述车辆的状态相应的行动变量的值来操作所述电子设备。

5.一种车辆用控制系统，

具备权利要求4所述的车辆用控制装置所具备的所述执行装置和所述存储装置，

所述执行装置包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置，

所述第1执行装置至少执行所述取得处理和所述操作处理，

所述第2执行装置至少执行所述更新处理。

6.一种车辆用控制装置，具备权利要求5所述的车辆用控制系统所具备的第1执行装置。

7.一种车辆用学习装置，具备权利要求5所述的车辆用控制系统所具备的第2执行装置。