CN113007339B

CN113007339B - 车辆用控制数据的生成方法、控制装置、系统及学习装置

Info

Publication number: CN113007339B
Application number: CN202011489841.5A
Authority: CN
Inventors: 桥本洋介; 片山章弘; 大城裕太; 杉江和纪; 冈尚哉
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2019-12-20
Filing date: 2020-12-16
Publication date: 2022-07-26
Anticipated expiration: 2040-12-16
Also published as: US11226034B2; US20210190204A1; JP2021099112A; CN113007339A; JP7136073B2

Abstract

本发明涉及车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置。到经过预定期间为止，CPU基于加速器操作量、车速、坡度、曲率以及当前的变速比，设定作为行动的变速比。CPU根据设定的变速比，操作变速装置，并取得此时的曲轴的转速。在经过预定期间的情况下，CPU通过根据转速和/或变速比的切换次数是否满足基准来给予奖励，从而更新行动价值函数。

Description

车辆用控制数据的生成方法、控制装置、系统及学习装置

技术领域

本发明涉及车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置。

背景技术

日本特开2004-257434号公报中记载了一种控制装置，该控制装置具有根据加速器(油门)操作量和车速来确定变速装置的变速比(传动比、齿轮速比)的第1换挡规律(shift schedule)和第2换挡规律，并根据加速度的绝对值的积分值，选择采用两个换挡规律中的哪一个。

通过将换挡规律根据积分值进行切换，相比于采用根据加速器操作量和车速而唯一确定的规律的情况，能够更适当地进行变速比的切换。然而，虽然如上述这样，通过使变速比的切换控制的输入增加，能够更适当地切换变速比，但是换挡规律的匹配工作量会增大。

发明内容

为了解决上述问题，根据本发明的第一技术方案，提供一种使用存储装置和执行装置的车辆用控制数据的生成方法。该方法包括：将关系规定数据存储于所述存储装置，所述关系规定数据是规定偏差量变量及所述车辆的状态与变速比变量的关系的数据，所述偏差量变量是与车辆行驶的道路的从基准道路的偏差量有关的变量，所述变速比变量是与搭载于所述车辆的变速装置的变速比有关的变量；以及在将所述关系规定数据存储于所述存储装置的状态下，由所述执行装置执行如下处理：操作处理，该操作处理操作所述变速装置的变速比；取得处理，该取得处理取得基于传感器的检测值的所述车辆的状态及所述偏差量变量；奖励计算处理，该奖励计算处理基于通过所述取得处理取得的所述车辆的状态，使在所述车辆的特性满足预定基准的情况下给予的奖励大于在所述车辆的特性不满足预定基准的情况下给予的奖励；和更新处理，该更新处理将通过所述取得处理取得的所述车辆的状态及所述偏差量变量、和与所述操作处理的操作对应的所述奖励，作为向预先确定的更新映射的输入，更新所述关系规定数据。所述更新映射输出以使按照所述关系规定数据来操作所述变速比的情况下的关于所述奖励的期待收益(回报)增加的方式进行了更新的所述关系规定数据。

上述关系规定数据是除了根据车辆的状态之外还根据偏差量变量来确定变速比变量的数据，所以与仅确定车辆的状态与变速比变量的关系的数据相比，能够根据道路的状态指示更适当的变速比。在此，在上述方法中，通过计算伴随变速装置的操作的奖励，能够掌握通过该操作而获得怎样的奖励。而且，通过基于奖励，根据按照强化学习的更新映射，更新关系规定数据，从而能够设定偏差量变量及车辆的状态与变速比的关系。因此，能够在设定偏差量变量及车辆的状态与变速比的关系时削减匹配工作量。

在上述车辆用控制数据的生成方法中，优选为，所述基准道路是满足坡度为坡度基准值这一意思的基准的道路，由所述取得处理取得的所述偏差量变量包括与道路的坡度有关的变量。

在道路的坡度大的情况下，与道路的坡度小的情况相比，驱动轮所要求的转矩(torque)变得更大，所以根据道路的坡度，适当的换挡规律可能不同。于是，在上述方法中，通过使偏差量变量包括与道路的坡度有关的变量，能够通过强化学习来学习确定道路的坡度与变速比的适当关系的关系规定数据。

在上述车辆用控制数据的生成方法中，优选为，所述基准道路是满足曲率为曲率基准值这一意思的基准的道路，由所述取得处理取得的所述偏差量变量包括与道路的曲率有关的变量。

在弯道(转弯)行驶时，相比于直行行驶时，用户的加速器操作和制动器(刹车)操作被切换的可能性较高，所以根据道路的曲率，适当的换挡规律不同。于是，在上述方法中，通过使偏差量变量包括与道路的曲率有关的变量，能够通过强化学习来学习确定道路的曲率与变速比的适当关系的关系规定数据。

在上述车辆用控制数据的生成方法中，优选为，所述车辆的状态包括与经由所述变速装置向驱动轮供给动力的推力生成装置的负荷有关的负荷变量及车速。

在上述方法中，由关系规定数据确定负荷变量及车速与变速比的关系，所以能够通过强化学习来学习对于负荷变量及车速而言适当的变速比。

在上述车辆用控制数据的生成方法中，优选为，所述预定基准包括预定期间内的所述变速比的切换次数小于等于预定次数这一意思的条件，所述奖励计算处理包括如下处理：在所述切换次数小于等于所述预定次数的情况下，与所述切换次数大于预定次数的情况相比，给予较大的奖励。

在变速比的切换次数过多的情况下，换挡规律可能是不适当的。相对于此，在上述方法中，通过在切换次数小于等于预定次数的情况下，比切换次数大于预定次数的情况下，给予较大的奖励，能够通过强化学习来学习确定能抑制变速比的频繁切换的换挡规律的关系规定数据。

在上述车辆用控制数据的生成方法中，优选为，所述预定基准包括经由所述变速装置向驱动轮供给动力的推力生成装置的转速大于等于下限速度这一意思的条件，所述奖励计算处理包括如下处理：在所述推力生成装置的转速大于等于所述下限速度的情况下，与所述转速小于所述下限速度的情况相比，给予较大的奖励。

在推力生成装置的转速过低的情况下，难以使车辆的驱动力增大。相对于此，在上述方法中，通过在转速大于等于下限速度的情况下，比转速小于下限速度的情况下，给予较大的奖励，能够通过强化学习来学习确定在使车辆的驱动力成为按要求的驱动力上适当的变速比的关系规定数据。

在上述的车辆用控制数据的生成方法中，优选为，所述车辆具备拨片开关(paddleswitch，闸式开关)，所述取得处理包括取得所述拨片开关的操作状态的处理，所述奖励计算处理包括如下处理：在所述变速比由于所述拨片开关的操作而变更的情况下，与所述拨片开关没有被操作的情况相比，给予较小的奖励。

在拨片开关被操作的情况下，存在用户感觉到变速比的控制不适当的可能性。于是，在上述方法中，通过在变速比由于拨片开关的操作而变更的情况下，比拨片开关没有被操作的情况下，给予较小的奖励，能够通过强化学习来学习确定按照用户的驾驶习惯的变速比的关系规定数据。

在上述车辆用控制数据的生成方法中，优选为，所述取得处理包括取得加速器操作量的处理，所述奖励计算处理包括如下处理：在伴随加速器操作而发生了降挡(downshift)的情况下，与没有发生所述降挡的情况相比，给予较小的奖励。

在上述方法中，通过在发生了强制降挡(kickdown)的情况下，比没有发生强制降挡的情况下，给予较小的奖励，能够通过强化学习来学习确定能抑制用户感觉转矩不够的变速比的关系规定数据。

在上述车辆用控制数据的生成方法中，优选为，还包括：由所述执行装置执行如下处理：基于通过所述更新处理更新了的所述关系规定数据，通过将所述车辆的状态及所述偏差量变量与使所述期待收益最大化的所述变速比变量的值进行关联，生成控制用映射数据，该控制用映射数据将所述车辆的状态及所述偏差量变量作为输入，并输出使所述期待收益最大化的所述变速比变量的值。

在上述方法中，基于通过强化学习而学习了的关系规定数据，生成控制用映射数据。因此，通过将该控制用映射数据安装于控制装置，能够简易地基于车辆的状态及偏差量变量来设定使期待收益最大化的变速比变量的值。

为了解决上述问题，根据本发明的第二技术方案，提供一种车辆用控制装置，其具备所述存储装置以及所述执行装置，所述操作处理包括如下处理：按照基于所述关系规定数据而与所述车辆的状态及所述偏差量变量相应的所述变速比变量的值，操作所述变速装置。

在上述构成中，基于通过强化学习而学习了的关系规定数据来设定变速比变量的值，并基于该变速比变量的值操作变速装置，由此能够以使期待收益增大的方式操作变速装置。

为了解决上述问题，根据本发明的第三技术方案，提供一种车辆用控制系统，其具备所述执行装置以及所述存储装置，所述执行装置包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置，所述第1执行装置至少执行所述取得处理和所述操作处理，所述第2执行装置至少执行所述更新处理。

在上述构成中，通过由第2执行装置执行更新处理，与第1执行装置执行更新处理的情况相比，能够减轻第1执行装置的运算负荷。

第2执行装置是有别于车载装置的装置意味着第2执行装置不是车载装置。

为了解决上述问题，根据本发明的第四技术方案，提供一种具备所述第1执行装置的车辆用控制装置。

为了解决上述问题，根据本发明的第五技术方案，提供一种具备所述第2执行装置的车辆用学习装置。

附图说明

图1是表示本发明的第1实施方式涉及的控制装置以及驱动系统的图。

图2是表示控制装置执行的处理的步骤的流程图。

图3是表示生成映射数据的系统的图。

图4是表示系统执行的处理的步骤的流程图。

图5是表示学习处理的详情的流程图。

图6是表示映射数据的生成处理的步骤的流程图。

图7是表示第2实施方式涉及的控制装置以及驱动系统的图。

图8是表示控制装置执行的处理的步骤的流程图。

图9是表示学习处理的详情的流程图。

图10是表示第3实施方式涉及的系统的构成的图。

图11A以及图11B是表示系统执行的处理的步骤的流程图。

具体实施方式

以下，参照附图，对车辆用控制数据的生成方法、车辆用控制装置、车辆用控制系统以及车辆用学习装置所涉及的实施方式进行说明。

＜第1实施方式＞

图1表示第1实施方式涉及的车辆VC1的驱动系统以及控制装置的构成。

如图1所示，在内燃机10的进气通路12，从上游侧起依次设置有节气门14以及燃料喷射阀16。被吸入到进气通路12的空气和从燃料喷射阀16喷射出的燃料随着进气门18的开阀而向由汽缸20和活塞22划分的燃烧室24流入。在燃烧室24内，燃料与空气的混合气伴随着点火装置26的火花放电而燃烧。通过燃烧产生的能量经由活塞22被转换为曲轴28的旋转能。燃烧了的混合气随着排气门30的开阀而作为排气(废气)向排气通路32排出。在排气通路32设置有作为净化排气的后处理装置的催化剂34。

曲轴28能够经由具备锁止离合器42的变矩器40以机械方式与变速装置50的输入轴52连结。变速装置50控制输入轴52的转速与输出轴54的转速之比即变速比。输出轴54以机械方式与驱动轮60连结。

控制装置70将内燃机10作为控制对象。控制装置70操作节气门14、燃料喷射阀16及点火装置26等内燃机10的操作部以控制转矩和/或排气成分比率等。控制装置70将变矩器40作为控制对象。控制装置70操作锁止离合器42以控制锁止离合器42的接合状态。控制装置70将变速装置50作为控制对象。控制装置70操作变速装置50以控制变速比。图1表示了节气门14、燃料喷射阀16、点火装置26、锁止离合器42以及变速装置50的各自的操作信号MS1～MS5。

为了控制内燃机10，控制装置70参照曲轴角传感器80的输出信号Scr、由加速器传感器82检测的加速器踏板84的踩下量(加速器操作量PA)、和由车速传感器86检测的车速V。控制装置70参照由全球定位系统(GPS)90得到的位置数据Pgps、和通过拨片开关92的操作所确定的拨片操作变量Vps的值。拨片开关92是用于供车辆VC1的用户指示变速装置50的变速比的切换的人机接口。

控制装置70具备CPU72、ROM74、可电改写的非易失性存储器(存储装置76)以及外围电路78。CPU72、ROM74、存储装置76以及外围电路78经由局域网79以可通信的方式连接。外围电路78包括生成规定内部动作的时钟信号的电路、电源电路、复位(reset)电路等。

在ROM74中存储有控制程序74a。在存储装置76中存储有映射数据DM和地图数据DG。在映射数据DM中，变速装置50的当前的变速比GR、加速器操作量PA、车速V、道路的坡度SL及道路的曲率CU是输入变量，变速装置50的变速比GR是输出变量。映射数据是指由输入变量的离散值和与输入变量的各个值对应的输出变量的值的组所形成的数据。

图2表示与由控制装置70进行的变速装置50的变速比的控制有关的处理的步骤。图2所示的处理通过由CPU72按预定周期反复执行存储于ROM74的程序来实现。以下，利用开头附加有“S”的数字来表现各处理的步骤编号。

在图2所示的一系列处理中，首先，CPU72取得加速器操作量PA、车速V以及拨片操作变量Vps(S10)。接着，CPU72基于拨片操作变量Vps，判定拨片开关92是否被进行了操作(S12)。在拨片开关92没被进行操作的情况下(S12：否)，CPU72取得位置数据Pgps(S14)。然后，CPU72基于位置数据Pgps和地图数据DG，计算车辆VC1正在行驶的道路的坡度SL和曲率CU(S16)。即，CPU72根据位置数据Pgps，确定地图数据DG所示的地图上的位置，并分别确定所确定出的位置附近的道路的坡度SL和曲率CU。接着，CPU72取得当前的变速比GR(S18)。然后，CPU72将当前的变速比GR、加速器操作量PA、车速V、道路的坡度SL及道路的曲率CU作为输入，基于映射数据DM，对变速比GR进行映射运算(S20)。在此，在映射运算中，在输入变量的值与映射数据的输入变量的值中的某一个一致的情况下，将对应的映射数据的输出变量的值作为运算结果。相对于此，在输入变量的值与映射数据的输入变量的值中的每一个都不一致的情况下，将通过对映射数据所包含的多个输出变量的值的内插所获得的值作为运算结果。

在S20的处理完成的情况下，CPU72向变速装置50输出操作信号MS5以将变速装置50的变速比设为通过S20的处理计算出的变速比GR(S22)。相对于此，当在S12的处理中做出肯定判定的情况下，CPU72向变速装置50输出操作信号MS5以将变速装置50的变速比设为与拨片开关92的操作相应的变速比(S22)。

在完成S22的处理的情况下，CPU72暂时结束图2所示的一系列处理。

图3表示生成映射数据DM的系统。

如图3所示，将测力计(dynamometer)100经由变矩器40以及变速装置50以机械方式连结于内燃机10的曲轴28。另外，由传感器组102检测在使内燃机10运转时的各种状态变量。而且，传感器组102的检测结果输入到生成装置110，生成装置110是生成映射数据DM的计算机。传感器组102包括图1所示的车辆VC1搭载的传感器等。

生成装置110具备CPU112、ROM114、可电改写的非易失性存储器(存储装置116)以及外围电路118。CPU112、ROM114、存储装置116以及外围电路118通过局域网119以可通信的方式连接。在存储装置116中存储有关系规定数据DR。关系规定数据DR是规定当前的变速比GR、加速器操作量PA、车速V、道路的坡度SL及道路的曲率CU等状态变量与作为行动变量的变速比GR的关系的数据。在ROM114中存储有通过强化学习来学习关系规定数据DR的学习程序114a。

图4表示生成装置110执行的处理的步骤。图4所示的处理通过由CPU112执行存储于ROM114的学习程序114a来实现。

在图4所示的一系列处理中，首先，CPU112设定加速器操作量PA、车速V、道路的坡度SL、道路的曲率CU及当前的变速比GR等状态s(S30)。在图3所示的系统中，不存在加速器踏板84。因此，生成装置110通过模拟车辆VC1的状态而以伪方式生成加速器操作量PA。将以伪方式生成的加速器操作量PA视作车辆的状态的检测值。同样地，在图3所示的系统中，既不存在车辆，也不存在道路。因此，生成装置110设定车辆行驶的道路，并由测力计100生成在车辆行驶于所设定的道路时施加于变速装置50的输出轴54的转矩。而且，生成装置110逐次根据施加于输出轴54的转矩来计算车速V。也将车速V视作车辆的状态的检测值，另外，将坡度SL及曲率CU视作表示车辆行驶的道路的从基准道路的偏差量的变量。基准道路是坡度SL及曲率CU为零的道路。假设基准道路是路面基本平坦的道路并且摩擦系数为预定值。预定值设定为晴天时的标准的道路的摩擦系数。据此，预定值设定为比雨天的道路等的摩擦系数大的值。

接着，CPU112按照由关系规定数据DR确定的策略π，设定作为与通过S30的处理取得的状态s相应的行动a的变速比GR(S32)。关系规定数据DR是确定行动价值函数Q及策略π的数据。行动价值函数Q是表示与状态s及行动a的6维自变量相应的期待收益的值的表(table)形式的函数。另外，策略π确定以下规则：在被给出了状态s时，优先选择自变量成为被给出的状态s的行动价值函数Q中的期待收益的值成为最大的行动a(贪婪行动(greedyaction))，并且以预定的概率选择除此以外的行动a。

详细而言，行动价值函数Q的自变量可取的值的数量是根据人的见解等而削减了状态s及行动a的可取的值的全部组合中的一部分后的数量。即，在状态s中的变速比GR为1速比的情况下，作为行动a的变速比GR，仅容许1速比或者2速比。在第1实施方式中，通过基于人的见解等的降维，将行动价值函数Q的自变量可取的值的数量限制在小于等于10的4次方个，更优选为限制在小于等于10的3次方个。

接着，CPU112基于通过S32的处理所设定的变速比GR，与S22的处理同样地，输出操作信号MS5(S34)。接着，CPU112取得内燃机10的转速NE(S36)。在此，CPU112基于传感器组102中的曲轴角传感器80的输出信号Scr计算转速NE。然后，CPU112判定从第一次执行图4的一系列处理的时间点和执行了S40的处理的时间点中的较晚一方起是否经过了预定期间(S38)。在经过了预定期间的情况下(S38：是)，CPU112通过强化学习，将行动价值函数Q更新(S40)。

图5中表示S40的处理的详情。

在图5所示的一系列处理中，CPU112取得上述的预定期间内的状态s及行动a的时间序列数据(S50)。在图5中，括号中的数字不同的变量表示是采样定时(sampling timing)不同的变量的值。关于加速器操作量PA(1)和加速器操作量PA(2)，采样定时不同。另外，在预定期间内的行动a的时间序列数据为行动集合Aj。在预定期间内的状态s的时间序列数据为状态集合Sj。

接着，CPU112基于状态集合Sj中的变速比GR的时间序列数据，计算切换次数NSGR，切换次数NSGR是变速比被切换了的次数(S52)。然后，CPU112判定条件(a)和条件(b)的逻辑与是否为真，条件(a)是切换次数NSGR在预定次数Nth以下这一意思的条件，条件(b)是预定期间内的转速NE的采样值全部在下限速度NEthL以上且在上限速度NEthH以下这一意思的条件(S54)。在此，逻辑与成为真相当于满足关于驾驶性能(driveability)所要求的基准。

在此，CPU112根据坡度SL及曲率CU，可变地设定下限速度NEthL。详细而言，CPU112在坡度SL大的情况下，相比于坡度SL小的情况，将下限速度NEthL设定为较大的值。另外，CPU112在曲率CU大的情况下，相比于曲率CU小的情况，将下限速度NEthL设定为较大的值。

在逻辑与为真的情况下(S54：是)，CPU112对奖励r代入“10”(S56)。在逻辑与为假的情况下(S54：否)，CPU112对奖励r代入“-10”(S58)。在S56、S58的处理完成的情况下，CPU112将图3所示的存储于存储装置116的关系规定数据DR更新。在第1实施方式中，使用ε软同策略型蒙特卡洛方法(ε-soft on-policy type Monte Carlo method)。

即，CPU112对由通过S50的处理读取到的各状态和对应的行动的组所确定的收益R(Sj，Aj)分别加上奖励r(S60)。在此，“R(Sj，Aj)”是对将状态集合Sj的元素之一作为状态、将行动集合Aj的元素之一作为行动的收益R进行了总括的记载。接着，对于由通过S50的处理读取到的各状态和对应的行动的组所确定的收益R(Sj，Aj)的每一个，进行平均化并代入到对应的行动价值函数Q(Sj，Aj)(S62)。关于平均化，只要将通过S60的处理计算出的收益R除以进行了S60的处理的次数即可。收益R的初始值设为零即可。

接着，CPU112对于通过S50的处理读取到的状态的每一个，将对应的行动价值函数Q(Sj，A)中的、期待收益成为最大值时的行动a代入到行动Aj*(S64)。在此，“A”表示可取的任意的行动。行动Aj*根据通过S50的处理读取到的状态的种类而成为不同的值，但在此对记载进行简化，用同一标号进行记载。

在S66的处理完成的情况下，CPU112暂时结束图5所示的一系列处理。

回到图4，S40的处理完成时，CPU112判定行动价值函数Q是否已收敛(S42)。在此，在通过S40的处理对行动价值函数Q的更新量成为预定值以下的连续次数达到预定次数的情况下判定为已收敛即可。在行动价值函数Q未收敛的情况下(S42：否)或在S38的处理中做出否定判定的情况下，CPU112回到S30的处理。相对于此，在行动价值函数Q收敛了的情况下(S52：是)，CPU112暂时结束图4所示的一系列处理。

图6中表示生成装置110执行的处理中的特别是基于通过图4的处理学习了的行动价值函数Q来生成映射数据DM的处理的步骤。图6所示的处理通过由CPU112执行存储于ROM114的学习程序114a来实现。

在图6所示的一系列处理中，首先，CPU112选择成为映射数据DM的输入变量的值的多个状态s中的一个(S70)。接着，CPU112选择与状态s对应的行动价值函数Q(s，A)中的、使行动价值函数Q的值最大的行动a(S72)。即，在此利用贪婪策略选择行动a。接着，CPU112使状态s和行动a的组存储于存储装置116(S74)。

接着，CPU112判定是否通过S70的处理选择了成为映射数据DM的输入变量的值的全部的状态s(S76)。而且，在存在未被选择的状态s的情况下(S76：否)，CPU112回到S70的处理。相对于此，在选择了全部的情况下(S76：是)，CPU112基于通过S74的处理所存储的数据，生成映射数据DM(S78)。在此，将与映射数据DM的输入变量的值为状态s对应的输出变量的值设为对应的行动a。

CPU112在S78的处理完成的情况下，暂时结束图6所示的一系列处理。

在此，对第1实施方式的作用及效果进行说明。

在图3所示的系统中，CPU112通过强化学习，学习行动价值函数Q。而且，在行动价值函数Q的值收敛的情况下，设为在满足关于驾驶性能所要求的基准方面学习到了适当的行动。然后，CPU112对于成为映射数据DM的输入变量的状态的每一个，选择使行动价值函数Q最大化的行动，并将状态和行动的组存储于存储装置116。接着，CPU112基于存储于存储装置116的状态和行动的组，生成映射数据DM。由此，无需使熟练者花费的工时过大就能够设定与加速器操作量PA、车速V、道路的坡度SL及道路的曲率CU相应的适当的变速比GR。

特别地，在第1实施方式中，不仅基于加速器操作量PA及车速V还基于坡度SL及曲率CU确定了变速比GR。在坡度SL大的情况下，相比于坡度SL小的情况，驱动轮60所要求的转矩趋于增大。另外，在进行弯道行驶时，由用户进行的加速器操作和制动器操作切换的频率趋于增高。据此，根据坡度SL和/或曲率CU，适当的变速比不同。因此，通过根据坡度SL和/或曲率CU设定变速比GR，能够更适当地设定变速比GR。但是，在基于坡度SL和/或曲率CU设定变速比GR的情况下，相比于仅根据加速器操作量PA及车速V设定变速比GR的情况，映射数据DM的维度增大，匹配工作量增大。因此，如第1实施方式这样使用强化学习的好处特别大。

根据第1实施方式，还能获得以下所述的作用及效果。

(1)在控制装置70具备的存储装置76中存储了映射数据DM，而并非行动价值函数Q等。由此，CPU72基于使用映射数据DM的映射运算，设定变速比GR。由此，与执行选择行动价值函数Q中的期待收益成为最大值的行动的处理的情况相比，能够减轻运算负荷。

＜第2实施方式＞

以下，参照附图，以与第1实施方式的不同之处为中心，对第2实施方式进行说明。

图7表示第2实施方式涉及的车辆VC1的驱动系统以及控制装置。在图7中，对与图1所示的部件对应的部件标记同一标号。

如图7所示，在第2实施方式中，除了控制程序74a之外，在ROM74中还存储有学习程序74b。另外，在存储装置76中，代替映射数据DM而存储有关系规定数据DR。关系规定数据DR是通过图4的处理学习了的已学习过的数据。

图8表示第2实施方式涉及的控制装置70执行的处理的步骤。图8所示的处理通过由CPU72按预定周期反复执行存储于ROM74的控制程序74a以及学习程序74b来实现。在图8中，对与图4所示的处理对应的处理附加同一步骤编号。

在图8所示的一系列处理中，首先，CPU72取得位置数据Pgps、加速器操作量PA、车速V、变速比GR以及拨片操作变量Vps(S10a)。接着，CPU72在执行图2的S12、S16的处理后，执行图4的S30、S32的处理。而且，在S32的处理完成的情况下或在S12的处理中做出肯定判定的情况下，CPU72执行S34～S38的处理。其中，在S12的处理中做出肯定判定的情况下的S34的处理成为为了根据拨片操作变量Vps操作变速装置50而输出操作信号MS5的处理。然后，在判定为经过了预定期间的情况下(S38：是)，CPU72执行以S40的处理为准的处理(S40a)。

图9中表示S40a的处理的详情。在图9中，对与图5所示的处理对应的处理标记同一步骤编号。

在图9所示的一系列处理中，CPU72执行了S50、S52的处理时，判定上述条件(a)、上述条件(b)、条件(c)和条件(d)的逻辑与是否为真，条件(c)是没有拨片开关92的操作历史记录这一意思的条件，条件(d)是没有由加速器踏板84的操作引起的降挡这一意思的条件(S54a)。在第2实施方式中，该逻辑与为真相当于满足关于驾驶性能所设定的基准。

在判定为逻辑与是真的情况下(S54a：是)，CPU72移至S56的处理。另一方面，在判定为逻辑与是假的情况下(S54a：否)，CPU72移至S58的处理。

然后，在S56、S58的处理完成的情况下，CPU72执行S60～S66的处理，并暂时结束图8的S40a的处理。

回到图8，在S40a的处理完成的情况下或在S38的处理中做出否定判定的情况下，CPU72暂时结束图8所示的一系列处理。顺便说一下，S10a、S12、S16、S30～S38的处理通过由CPU72执行控制程序74a来实现，S40a的处理通过由CPU72执行学习程序74b来实现。

如此，根据第2实施方式，通过对控制装置70安装关系规定数据DR以及学习程序74b，相比于第1实施方式的情况，能够提高学习频度。

根据第2实施方式，还能获得以下所述的作用及效果。

(2)当在预定期间内没有拨片开关92的操作历史记录的情况下，与有操作历史记录的情况相比，给予较大的奖励。由此，能够通过强化学习来学习反映了用户的喜好的换挡规律。

(3)当在预定期间内发生了强制降挡的情况下，与没有发生强制降挡的情况相比，给予较大的奖励。由此，能够通过强化学习来学习反映了用户的喜好的换挡规律。

＜第3实施方式＞

以下，参照附图，以与第2实施方式的不同之处为中心，对第3实施方式进行说明。

在第3实施方式中，在车辆VC1之外执行关系规定数据DR的更新。

图10表示第3实施方式涉及的执行强化学习的控制系统的构成。在图10中，对与图1所示的部件对应的部件标记同一标号。

图10所示的车辆VC1内的控制装置70中的ROM74存储有控制程序74a，但没有存储学习程序74b。另外，控制装置70具备通信机77。通信机77是用于经由车辆VC1外部的网络120与数据解析中心130进行通信的设备。

数据解析中心130解析从多个车辆VC1、VC2、……发送的数据。数据解析中心130具备CPU132、ROM134、可电改写的非易失性存储器(存储装置136)、外围电路138以及通信机137。CPU132、ROM134、存储装置136以及外围电路138通过局域网139以可通信的方式连接。在ROM134中存储有学习程序74b。在存储装置136中存储有关系规定数据DR。

图11A以及图11B中表示第3实施方式涉及的强化学习的处理步骤。图11A所示的处理通过图10所示的CPU72执行存储于ROM74的控制程序74a来实现。图11B所示的处理通过由CPU132执行存储于ROM134的学习程序74b来实现。在图11A以及图11B中，对与图8所示的处理对应的处理标记同一步骤编号。以下，按照强化学习的时间序列，说明图11A以及图11B所示的处理。

在图11A所示的一系列处理中，CPU72执行S10a、S12、S16、S30～S38的处理。在S38的处理中做出肯定判定的情况下，CPU72通过操作通信机77，发送进行关系规定数据DR的更新处理所需的数据(S80)。在此，成为发送对象的数据包括：在预定期间内的S30的处理中所设定的状态s、在预定期间内的S32的处理中所设定的行动a、以及在预定期间内的S36的处理中所取得的转速NE。

相对于此，如图11B所示，CPU132接收被发送的数据(S90)，并基于接收到的数据更新关系规定数据DR(S40a)。然后，CPU132判定关系规定数据DR的更新次数是否在预定次数以上(S92)。在更新次数在预定次数以上的情况下(S92：是)，CPU132操作通信机137，向发送了通过S90的处理接收到的数据的车辆VC1发送关系规定数据DR(S94)。在完成S94的处理的情况下或在S92的处理中做出否定判定的情况下，CPU132暂时结束图11B所示的一系列处理。

相对于此，如图11A所示，CPU72判定是否有更新数据(S82)。在有更新数据的情况下(S82：是)，CPU72接收被更新了的关系规定数据DR(S84)。然后，CPU将在S32的处理中利用的关系规定数据DR改写成接收到的关系规定数据DR(S86)。在完成S86的处理的情况下和在S38、S82的处理中做出否定判定的情况下，CPU72暂时结束图11A所示的一系列处理。

如此，在车辆VC1的外部进行关系规定数据DR的更新处理，所以能够减轻控制装置70的运算负荷。再者，在S90的处理中接收来自多个车辆VC1、VC2的数据后进行S40a的处理的话，能够容易地增加用于学习的数据数量。

＜对应关系＞

上述实施方式中的事项与各权利要求所述的事项的对应关系如下。以下，按权利要求的项号表示了上述的对应关系。[1]执行装置和存储装置在图1以及图7中分别对应于CPU72以及ROM74和存储装置76，在图3中分别对应于CPU112以及ROM114和存储装置116，在图10中对应于CPU72、132以及ROM74、134和存储装置76、136。偏差量变量对应于坡度SL以及曲率CU。车辆的状态对应于加速器操作量PA以及车速V。操作处理对应于S34的处理，取得处理对应于S30和S36的处理。奖励计算处理对应于S54～S58的处理或S54a、S56和S58的处理。更新处理对应于S60～S66的处理。[2]坡度基准值对应于零度。[3]曲率基准值对应于零。[4]负荷变量对应于加速器操作量PA。[5]对应于S54的处理或S54a的处理中的特别是与条件(a)有关的处理。[6]推力生成装置对应于内燃机10。[7]对应于S54a的处理中的特别是与条件(c)有关的处理。[8]对应于S54a的处理中的特别是与条件(d)有关的处理。[9]控制用映射数据对应于映射数据DM。[10]执行装置和存储装置分别对应于图7中的CPU72以及ROM74和存储装置76。[11～13]第1执行装置对应于CPU72以及ROM74，第2执行装置对应于CPU132以及ROM134。

＜其他实施方式＞

上述各实施方式可以如下进行变更来实施。上述各实施方式和以下的变更例可以在技术上不矛盾的范围内相互组合来实施。

[关于基准道路以及偏差量变量]

虽然将基准道路设为了坡度SL为零且曲率CU为零的道路，将偏差量变量设为了坡度SL和曲率CU，但不限于此。也可以仅使用坡度SL和曲率CU中的一个来定义偏差量变量。

基准道路也可以是路面的状态为预先确定的状态的道路。这能够通过将基准道路设为凹凸在预定量以下且摩擦系数为预定值的道路来实现。在将晴天时的通常的道路的值设定为预定值的情况下，关于雪道等，偏差量变量取表示从基准道路偏离这一情况的值。在此，偏差量变量也可以不必设为与摩擦系数相应的连续的量。也可以将偏差量变量设为具有如下三个值的量：表示与基准道路为同一道路的值；表示是雨天的道路这一意思的值；和表示是雪道这一意思的值。关于是否为雨天的道路，可以根据车辆VC1的雨刷器有没有工作来判定，另外，也可以通过从车辆VC1的外部取得天气信息来判定。另外，关于是否为雪道，通过取得感测路面的摄像头的图像来判定即可。

作为基准道路，不限于是基于道路的形状具有预先确定的形状、和路面的状态为预先确定的状态中的某一个必要条件的道路，也可以是由上述两方必要条件确定的道路。

[关于确定关系规定数据DR的车辆的状态]

虽然根据当前的变速比GR、加速器操作量PA及车速V等确定了变速比，但作为确定变速比的车辆的状态变量，不限于此。也可以代替加速器操作量PA而使用与节气门14的开度有关的变量。作为表示推力生成装置的负荷的变量即负荷变量，不限于与加速器操作量PA和/或节气门14的开度有关的变量。也可以是内燃机10的转矩。另外，在如下述“关于内燃机”一栏中记载的那样，推力生成装置为压缩着火式内燃机的情况下，也可以为喷射量。再者，在如下述“关于车辆”一栏中记载的那样，推力生成装置仅为旋转电机的车辆的情况下，也可以为旋转电机的转矩和/或电流。

确定变速比的车辆的状态变量仅包括当前的变速比GR，但不限于此。也可以包括变速比GR的时间序列数据。

确定变速比的车辆的状态变量并非必须包括当前的变速比。也可以完全不包括变速比GR，取而代之地通过控制来设置用于抑制变速比的频繁切换的磁滞。这能够通过如下实现：即使由关系规定数据DR指示的变速比与当前的变速比不同，在从上次的切换定时起的预定时间内，也禁止变速比的切换。

[关于关系规定数据]

虽然将行动价值函数Q设为了表形式的函数，但也可以使用函数逼近器。

也可以取代使用行动价值函数Q，而用以状态s及行动a为自变量并以取行动a的概率为因变量的函数逼近器来表现策略π，根据奖励r，将确定函数逼近器的参数更新。这时，可以使坡度SL、曲率CU等偏差量变量包含于状态s，但也可以取而代之地根据偏差量变量来设定分别的函数逼近器。即使在该情况下，关系规定数据DR由于是由坡度SL和/或曲率CU来指定要使用多个函数逼近器中的哪个的数据，因此也是规定偏差量变量与变速比变量的关系的数据。

[关于操作处理]

在如“关于关系规定数据”一栏中记载的那样将行动价值函数设为函数逼近器的情况下，通过将成为上述实施方式中的表形式的函数的自变量的关于行动的离散的值的全部组与状态s一起输入到行动价值函数Q，确定使行动价值函数Q最大化的行动a即可。即，在操作中主要采用所确定的行动a，并且以预定的概率选择除此以外的行动即可。

另外，在如“关于关系规定数据”一栏中记载的那样，将策略π设为以状态s及行动a为自变量并以取行动a的概率为因变量的函数逼近器的情况下，基于由策略π表示的概率选择行动a即可。

[关于更新映射]

在S60～S66的处理中，使用了ε软同策略型蒙特卡洛方法，但也可以使用异策略型(off-policy type)蒙特卡洛方法。不限于蒙特卡洛方法，也可以使用异策略型TD(Temporal-difference，时序分差)法，或使用如SARSA(state-action-reward-state'-action')法的同策略型TD法，或作为同策略型的学习，使用资格迹方法(eligibilitytrace method)。

在如“关于关系规定数据”一栏中记载的那样，使用函数逼近器表现策略π并基于奖励r直接更新策略π的情况下，使用策略梯度法等构成更新映射即可。

不限于仅将行动价值函数Q和策略π中的某一方作为基于奖励r的直接的更新对象。也可以如Actor Critic(演员评判家)法那样对行动价值函数Q和策略π分别进行更新。另外，在Actor Critic法中，也可以代替行动价值函数Q而将价值函数V作为更新对象。

关于确定策略π的“ε”，不限于固定值，也可以按照根据学习的进行程度预先确定的规则进行变更。

[关于奖励计算处理]

在图5的处理中，根据条件(a)和条件(b)的逻辑与是否为真而给予了奖励，但不限于此。也可以执行根据是否满足条件(a)来给予奖励的处理、和根据是否满足条件(b)来给予奖励的处理。另外，关于根据是否满足条件(a)来给予奖励的处理、和根据是否满足条件(b)来给予奖励的处理这两个处理，也可以仅执行它们中的任一个处理。

在图9的处理中，根据条件(a)～条件(d)的逻辑与是否为真而给予了奖励，但不限于此。也可以执行根据是否满足条件(a)来给予奖励的处理、根据是否满足条件(b)来给予奖励的处理、根据是否满足条件(c)来给予奖励的处理、和根据是否满足条件(d)来给予奖励的处理。另外，也可以仅执行根据是否满足条件(a)来给予奖励的处理、根据是否满足条件(b)来给予奖励的处理、根据是否满足条件(c)来给予奖励的处理、和根据是否满足条件(d)来给予奖励的处理这四个处理中的任意一个。另外，也可以仅执行四个处理中的任意两个。另外，也可以仅执行(a)～(c)等、四个处理中的任意三个。

也可以取代在满足条件(a)的情况下一律给予相同的奖励，而设为在变速比的切换次数NSGR小的情况下，比切换次数NSGR大的情况下给予较大的奖励的处理。另外，也可以取代在不满足条件(a)的情况下一律给予相同的奖励，而设为在变速比的切换次数NSGR大的情况下，比切换次数NSGR小的情况下给予较小的奖励的处理。

也可以取代在满足条件(b)的情况下一律给予相同的奖励，而设为根据转速NE的大小来使奖励的大小可变的处理。另外，也可以取代在不满足条件(b)的情况下一律给予相同的奖励，而设为根据转速NE的大小来使奖励的大小可变的处理。

虽然将下限速度NEthL设成了根据坡度SL及曲率CU可变，但不限于此。在如“关于基准道路以及偏差量变量”一栏中记载的那样，关系规定数据DR中仅使用坡度SL和曲率CU这两个中的任意一个的情况下，也可以将下限速度NEthL设为仅根据该任意一个而可变。另外，在如“关于基准道路以及偏差量变量”一栏中记载的那样，偏差量变量包括表示路面的状态的变量的情况下，也可以将下限速度NEthL设为根据表示路面的状态的变量而可变。作为用于使下限速度NEthL可变的变量，不限于关系规定数据DR中所使用的变量。

也可以在车轮打滑的情况下给予比不打滑的情况下小的奖励。在此，也可以使奖励的大小根据打滑量而改变。另外，也可以在ABS(Anti-lock Braking System，防抱死制动系统)启动了的情况下，相对于ABS不启动的情况，给予较小的奖励。

虽然设为了每隔预定期间执行奖励计算处理，但不限于此。也可以为，在S12的处理中做出肯定判定的情况下，作为情节(episode)的结束，也执行奖励计算处理。另外，也可以为，当在S12的处理中做出肯定判定、和制动器操作量的变化量的绝对值成为预定值以上的逻辑或成为真的情况下，作为情节结束而执行奖励计算处理。另外，也可以为，在车速成为零的情况下，作为情节结束而执行奖励计算处理。

[关于车辆用控制数据的生成方法]

在图4的S32的处理中，基于行动价值函数Q决定了行动，但不限于此，也可以按等概率选择可取的所有的行动。

[关于控制用映射数据]

作为通过将车辆的状态与使期待收益最大化的行动变量的值一对一地关联而以车辆的状态为输入并输出使期待收益最大化的行动变量的值的控制用映射数据，不限于映射数据，也可以是函数逼近器。这能够通过如下来实现：如在“关于更新映射”一栏中记载的那样，在使用策略梯度法等的情况下，用表示可取行动变量的值的概率的高斯分布来表现策略π，用函数逼近器表现其平均值，将表现平均值的函数逼近器的参数更新，并将学习后的平均值作为控制用映射数据。即，将函数逼近器输出的平均值视作使期待收益最大化的行动变量的值。

[关于车辆用控制系统]

在图11B所示的例子中，通过数据解析中心130执行S40a的全部处理，但不限于此。在数据解析中心130中，也可以，执行S60～S66的处理，但不执行作为计算奖励的处理的S54a、S56、S58的处理，并在S80的处理中，发送S56、S58的处理的结果。

在图11A所示的例子中，在车辆侧执行决定基于策略π的行动的处理(S32的处理)，但不限于此。也可以从车辆VC1发送通过S30的处理取得的数据，在数据解析中心130使用发送来的数据决定行动a，并将所决定的行动发送给车辆VC1。

作为车辆用控制系统，不限于由控制装置70以及数据解析中心130构成的系统。也可以使用用户的便携终端代替数据解析中心130。另外，也可以由控制装置70以及数据解析中心130和便携终端构成车辆用控制系统。这能够通过由便携终端执行S32的处理来实现。

[关于执行装置]

作为执行装置，不限于具备CPU72(112、132)和ROM74(114、134)并执行软件处理的装置。也可以具备对在上述实施方式中被进行软件处理的内容的至少一部分进行硬件处理的ASIC等专用的硬件电路。即，执行装置是以下的(a)～(c)中的某个构成即可。(a)具备按照程序执行上述处理的全部的处理装置、和存储程序的ROM等程序存储装置。(b)具备按照程序执行上述处理的一部分的处理装置以及程序存储装置、和执行其余处理的专用硬件电路。(c)具备执行上述处理的全部的专用硬件电路。在此，具备处理装置以及程序存储装置的软件执行装置、和专用硬件电路也可以为多个。

[关于存储装置]

将存储关系规定数据DR的存储装置与存储学习程序74b、114a和控制程序74a的存储装置(ROM74、114、134)设为有别的存储装置，但不限于此。

[关于内燃机]

内燃机不限于具备向进气通路12喷射燃料的进气口喷射阀作为燃料喷射阀的内燃机，既可以具备直接向燃烧室24喷射燃料的缸内喷射阀，也可以具备进气口喷射阀和缸内喷射阀双方。

作为内燃机，不限于火花点火式内燃机，也可以是使用轻油等作为燃料的压缩着火式内燃机等。

[关于车辆]

作为车辆，不限于推力生成装置仅为内燃机的车辆，也可以是具备内燃机和旋转电机的所谓的混合动力车辆。另外，也可以是不具备内燃机而具备旋转电机作为推力生成装置的所谓的电动汽车和燃料电池车。

Claims

1.一种车辆用控制数据的生成方法，是使用存储装置和执行装置的数据生成方法，包括：

将关系规定数据存储于所述存储装置，所述关系规定数据是规定偏差量变量及所述车辆的状态与变速比变量的关系的数据，所述偏差量变量是与车辆行驶的道路的从基准道路的偏差量有关的变量，所述变速比变量是与搭载于所述车辆的变速装置的变速比有关的变量；以及

在将所述关系规定数据存储于所述存储装置的状态下，

由所述执行装置执行如下处理：

操作处理，该操作处理操作所述变速装置的变速比；

取得处理，该取得处理取得基于传感器的检测值的所述车辆的状态及所述偏差量变量；

奖励计算处理，该奖励计算处理基于通过所述取得处理取得的所述车辆的状态，使在所述车辆的特性满足预定基准的情况下给予的奖励大于在所述车辆的特性不满足预定基准的情况下给予的奖励；和

更新处理，该更新处理将通过所述取得处理取得的所述车辆的状态及所述偏差量变量、和与所述操作处理的操作对应的所述奖励，作为向预先确定的更新映射的输入，更新所述关系规定数据，

所述更新映射输出以使按照所述关系规定数据来操作所述变速比的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据。

2.根据权利要求1所述的车辆用控制数据的生成方法，

所述基准道路是满足坡度为坡度基准值这一意思的基准的道路，

由所述取得处理取得的所述偏差量变量包括与道路的坡度有关的变量。

3.根据权利要求1所述的车辆用控制数据的生成方法，

所述基准道路是满足曲率为曲率基准值这一意思的基准的道路，

由所述取得处理取得的所述偏差量变量包括与道路的曲率有关的变量。

4.根据权利要求2所述的车辆用控制数据的生成方法，

5.根据权利要求1至4中任一项所述的车辆用控制数据的生成方法，

所述车辆的状态包括与经由所述变速装置向驱动轮供给动力的推力生成装置的负荷有关的负荷变量及车速。

6.根据权利要求1至4中任一项所述的车辆用控制数据的生成方法，

所述预定基准包括预定期间内的所述变速比的切换次数小于等于预定次数这一意思的条件，

所述奖励计算处理包括如下处理：在所述切换次数小于等于所述预定次数的情况下，与所述切换次数大于预定次数的情况相比，给予较大的奖励。

7.根据权利要求1至4中任一项所述的车辆用控制数据的生成方法，

所述预定基准包括经由所述变速装置向驱动轮供给动力的推力生成装置的转速大于等于下限速度这一意思的条件，

所述奖励计算处理包括如下处理：在所述推力生成装置的转速大于等于所述下限速度的情况下，与所述转速小于所述下限速度的情况相比，给予较大的奖励。

8.根据权利要求1至4中任一项所述的车辆用控制数据的生成方法，

所述车辆具备拨片开关，

所述取得处理包括取得所述拨片开关的操作状态的处理，

所述奖励计算处理包括如下处理：在所述变速比由于所述拨片开关的操作而变更的情况下，与所述拨片开关没有被操作的情况相比，给予较小的奖励。

9.根据权利要求1至4中任一项所述的车辆用控制数据的生成方法，

所述取得处理包括取得加速器操作量的处理，

所述奖励计算处理包括如下处理：在伴随加速器操作而发生了降挡的情况下，与没有发生所述降挡的情况相比，给予较小的奖励。

10.根据权利要求1至4中任一项所述的车辆用控制数据的生成方法，还包括：

由所述执行装置执行如下处理：基于通过所述更新处理更新了的所述关系规定数据，通过将所述车辆的状态及所述偏差量变量与使所述期待收益最大化的所述变速比变量的值进行关联，生成控制用映射数据，该控制用映射数据将所述车辆的状态及所述偏差量变量作为输入，并输出使所述期待收益最大化的所述变速比变量的值。

11.一种车辆用控制装置，

具备存储装置以及执行装置，

所述存储装置存储有关系规定数据，所述关系规定数据是规定偏差量变量及所述车辆的状态与变速比变量的关系的数据，所述偏差量变量是与车辆行驶的道路的从基准道路的偏差量有关的变量，所述变速比变量是与搭载于所述车辆的变速装置的变速比有关的变量；

所述执行装置构成为执行如下处理：

操作处理，该操作处理操作所述变速装置的变速比；

所述更新映射输出以使按照所述关系规定数据来操作所述变速比的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据，

所述操作处理包括如下处理：按照基于所述关系规定数据而与所述车辆的状态及所述偏差量变量相应的所述变速比变量的值，操作所述变速装置。

12.根据权利要求11所述的车辆用控制装置，

13.根据权利要求11所述的车辆用控制装置，

14.根据权利要求12所述的车辆用控制装置，

15.根据权利要求11至14中任一项所述的车辆用控制装置，

16.根据权利要求11至14中任一项所述的车辆用控制装置，

17.根据权利要求11至14中任一项所述的车辆用控制装置，

18.根据权利要求11至14中任一项所述的车辆用控制装置，

所述车辆具备拨片开关，

所述取得处理包括取得所述拨片开关的操作状态的处理，

19.根据权利要求11至14中任一项所述的车辆用控制装置，

所述取得处理包括取得加速器操作量的处理，

20.一种车辆用控制系统，

具备执行装置以及存储装置，

所述执行装置构成为执行如下处理：

操作处理，该操作处理操作所述变速装置的变速比；

所述操作处理包括如下处理：按照基于所述关系规定数据而与所述车辆的状态及所述偏差量变量相应的所述变速比变量的值，操作所述变速装置，

所述执行装置包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置，

所述第1执行装置至少执行所述取得处理和所述操作处理，

所述第2执行装置至少执行所述更新处理。

21.一种在车辆用控制系统中使用的车辆用控制装置，

所述车辆用控制系统，

具备存储装置和执行装置，

所述执行装置构成为执行如下处理：

操作处理，该操作处理操作所述变速装置的变速比；

所述第1执行装置至少执行所述取得处理和所述操作处理，

所述第2执行装置至少执行所述更新处理，

所述车辆用控制装置具备所述第1执行装置。

22.一种在车辆用控制系统中使用的车辆用学习装置，

所述车辆用控制系统，

具备存储装置和执行装置，

所述执行装置构成为执行如下处理：

操作处理，该操作处理操作所述变速装置的变速比；

所述第1执行装置至少执行所述取得处理和所述操作处理，

所述第2执行装置至少执行所述更新处理，

所述车辆用学习装置具备所述第2执行装置。