CN113944748B

CN113944748B - 自动变速器的液压的学习方法、自动变速器的控制装置、系统

Info

Publication number: CN113944748B
Application number: CN202110730908.8A
Authority: CN
Inventors: 樗泽英明; 田端淳; 奥田弘一; 今村健; 藤井广太; 佐佐木启太
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-07-17
Filing date: 2021-06-30
Publication date: 2022-12-13
Anticipated expiration: 2041-06-30
Also published as: CN113944748A; JP7251529B2; JP2022019162A; US20220018433A1; US11421781B2; DE102021118282A1

Abstract

本发明涉及自动变速器的液压的学习方法、自动变速器的控制装置、系统。自动变速器的液压的学习方法包括：在存储有关系规定数据的状态下，获取所述车辆的状态；以油的压力的值成为所述液压指令值的方式，向所述自动变速器供给油；计算表示检测输入转速超过目标输入转速的量的变量等作为特定变量；计算回报，该回报的值在所述特定变量满足基准的情况下比不满足基准的情况大；将所述回报和所述液压指令值作为向更新映射的输入，更新所述关系规定数据；以及计算转矩变量，输入转矩的变化量越大，则该转矩变量的值就越大。

Description

自动变速器的液压的学习方法、自动变速器的控制装置、系统

技术领域

本发明涉及自动变速器的液压的学习方法、自动变速器的控制装置以及自动变速器的控制系统。

背景技术

在日本特开2008-025624所记载的车辆中，自动变速器与动力源连接。若从车辆的控制装置要求切换变速档，则自动变速器通过卡合或者释放预定的离合器、制动器，来切换变速档。

另外，在切换变速档时，车辆的控制装置进行反馈控制，以使得关于卡合预定的离合器、制动器时的液压，自动变速器的检测输入转速超过自动变速器的目标输入转速的量、所谓的爆发量减少。

发明内容

在日本特开2008-025624所公开的技术中，当在自动变速器的离合器、制动器产生随着时间变化的磨损等而特性发生了变化的情况下调整液压，以使得与此相应地自动变速器的输入转速的爆发量变小。然而，自动变速器的输入转速的爆发量并非仅受到自动变速器的特性的变化的影响。因此，仅基于自动变速器的输入转速的爆发量调整自动变速器的离合器等的液压，有可能无法调整为与自动变速器的特性变化相应的恰当的液压。

本发明的第1方式是一种自动变速器的液压的学习方法。所述自动变速器搭载于车辆，与所述车辆的动力源连接，并且包括制动器和离合器中的至少一者作为摩擦卡合元件。所述液压的学习方法包括如下步骤：在用于规定所述车辆的状态与液压指令值的关系的关系规定数据被存储于存储装置的状态下，获取所述车辆的状态，该液压指令值是在切换所述自动变速器的变速档的所述摩擦卡合元件进行卡合时向所述自动变速器供给的油的压力；在切换所述自动变速器的变速档的所述摩擦卡合元件进行卡合时，以使要供给的油的压力的值成为由所获取的所述车辆的状态和所述关系规定数据决定的所述液压指令值的方式，向所述自动变速器供给油；在所述摩擦卡合元件被卡合时，计算表示所述自动变速器的检测输入转速超过所述自动变速器的目标输入转速的量的变量、表示从所述变速档的切换开始到切换完成为止的变速时间的变量以及表示由所述自动变速器产生的发热量的变量中的至少一个变量作为特定变量；计算回报，该回报的值在所获取的所述特定变量满足基准的情况下比不满足基准的情况大；将计算出的所述回报和计算了所述回报的所述摩擦卡合元件卡合时的所述液压指令值作为向预先确定的更新映射的输入来更新所述关系规定数据；以及计算转矩变量，所述摩擦卡合元件卡合时的所述自动变速器的输入转矩的变化量越大，则该转矩变量的值就越大。所述更新映射输出以根据所述关系规定数据使关于所述摩擦卡合元件卡合时的所述回报的期待收益增加的方式被更新后的所述关系规定数据。在计算出的所述转矩变量所表示的所述输入转矩的变化量为预先确定的预定值以上的情况下，在被计算出所述输入转矩的变化量的摩擦卡合元件卡合时，限制所述关系规定数据的变化。

在上述方式中，也可以是在所述转矩变量小于所述预定值的情况下，将所述回报修正为所述转矩变量越大则使所述回报的值越小。

根据上述结构，在输入转矩的变化量大的情况下，回报被计算成比输入转矩的变化量小的情况小。因此，在特定变量的影响小的状况下，基于学习的关系规定数据的变化变小，在特定变量的影响大的状况下，基于学习的关系规定数据的变化也变大。

在上述方式中，也可以是所述更新映射包括将动作价值函数仅更新更新前的所述动作价值函数乘以学习率而得到的值的更新量的映射。也可以是在所述转矩变量为所述预定值以上的情况下，将所述学习率设为“0”来更新所述关系规定数据。

根据上述结构，在输入转矩的变化量为预定值以上的情况下，将学习率设为“0”，因此在学习前后，关系规定数据不发生变化。其结果，若车辆的状态相同，则通过关系规定数据和车辆的状态能导出的液压指令值也不发生变化。像这样，通过利用学习率的数值实现不使关系规定数据变化的处理，能够抑制处理根据输入转矩的变化量的大小大幅地发生改变，有助于简化一系列的学习处理。

在上述方式中，也可以是针对所述自动变速器的变速档的每个切换种类，将所述回报设为不同的所述回报来赋予。

根据上述结构，针对自动变速器的变速档的每个切换种类，所计算的回报不同。因此，根据变速档的切换种类，学习不同的关系规定数据。由此，针对变速档的每个切换种类，得到恰当的液压指令值的可能性提高。

在上述方式中，所述转矩变量可以为开始所述变速档的切换时的作为加速器踏板的操作量的加速器操作量与所述变速档的切换完成时的所述加速器操作量之差。

根据上述结构，能够利用自动变速器的变速开始时和变速完成时的加速器操作量来检测转矩变量。

在上述方式中，所述转矩变量可以为从所述变速档的切换开始到切换完成为止的变速时间中的作为加速器踏板的操作量的加速器操作量的最大值与最小值之差。

根据上述结构，能够利用自动变速器的变速期间的加速器操作量的最大值和最小值来检测转矩变量。因此，即使在变速期间中加速器操作量从上升转变为下降或者从下降转变为上升，也能够将加速器操作量的最大的变化量作为转矩变量进行计算。

在上述方式中，所述转矩变量可以为开始所述变速档的切换时的作为加速器踏板的操作量的加速器操作量与所述变速档的切换完成时的所述加速器操作量之差除以所述变速时间得到的值。

根据上述结构，即使加速器操作量的差为相同量，在变速时间较长的情况和较短的情况下，转矩变量也能够设为不同的值。即，能够将转矩变量作为每单位时间的加速器操作量的变化比例计算出。

本发明的第2方式是一种自动变速器的控制装置。所述自动变速器搭载于车辆，与所述车辆的动力源连接，并且包括制动器和离合器中的至少一者作为摩擦卡合元件。所述控制装置包括：存储装置，构成为存储用于规定所述车辆的状态与液压指令值的关系的关系规定数据，该液压指令值是在切换所述自动变速器的变速档的所述摩擦卡合元件进行卡合时向所述自动变速器供给的油的压力；以及执行装置，被构成为如下：获取所述车辆的状态，在切换所述自动变速器的变速档的所述摩擦卡合元件进行卡合时，以使要供给的油的压力的值成为由所获取的所述车辆的状态和所述关系规定数据决定的所述液压指令值的方式，向所述自动变速器供给油，在所述摩擦卡合元件被卡合时，计算表示所述自动变速器的检测输入转速超过所述自动变速器的目标输入转速的量的变量、表示从所述变速档的切换开始到切换完成为止的变速时间的变量以及表示由所述自动变速器产生的发热量的变量中的至少一个变量作为特定变量，计算回报，该回报的值在所获取的所述特定变量满足基准的情况下比不满足基准的情况大，将计算出的所述回报和计算了所述回报的所述摩擦卡合元件卡合时的所述液压指令值作为向预先确定的更新映射的输入来更新所述关系规定数据，以及计算转矩变量，所述摩擦卡合元件卡合时的所述自动变速器的输入转矩的变化量越大，则该转矩变量的值就越大。所述更新映射输出以根据所述关系规定数据使关于所述摩擦卡合元件卡合时的所述回报的期待收益增加的方式被更新后的所述关系规定数据。所述执行装置被构成为在计算出的所述转矩变量所表示的所述输入转矩的变化量为预先确定的预定值以上的情况下，在被计算出所述输入转矩的变化量的所述摩擦卡合元件卡合时，限制所述关系规定数据的变化。

本发明的第3方式是一种自动变速器的控制系统。所述自动变速器搭载于车辆，与所述车辆的动力源连接，并且包括制动器和离合器中的至少一者作为摩擦卡合元件。所述控制系统包括：存储装置，构成为存储用于规定所述车辆的状态与液压指令值的关系的关系规定数据，该液压指令值是在切换所述自动变速器的变速档的所述摩擦卡合元件进行卡合时向所述自动变速器供给的油的压力；第1执行装置，被搭载于所述车辆；以及与所述第1执行装置独立的第2执行装置。所述第1执行装置被构成为：获取所述车辆的状态，在切换所述自动变速器的变速档的所述摩擦卡合元件进行卡合时，以使要供给的油的压力的值成为由所获取的所述车辆的状态和所述关系规定数据决定的所述液压指令值的方式，向所述自动变速器供给油。所述第1执行装置和所述第2执行装置中的至少一者被构成为：在所述摩擦卡合元件被卡合时，计算表示所述自动变速器的检测输入转速超过所述自动变速器的目标输入转速的量的变量、表示从所述变速档的切换开始到切换完成为止的变速时间的变量以及表示由所述自动变速器产生的发热量的变量中的至少一个变量作为特定变量，计算回报，该回报的值在所获取的所述特定变量满足基准的情况下比不满足基准的情况大。所述第2执行装置被构成为将计算出的所述回报和计算了所述回报的所述摩擦卡合元件卡合时的所述液压指令值作为向预先确定的更新映射的输入来更新所述关系规定数据。所述第1执行装置和所述第2执行装置中的至少一者被构成为计算转矩变量，所述摩擦卡合元件卡合时的所述自动变速器的输入转矩的变化量越大，则该转矩变量的值就越大。所述更新映射输出以根据所述关系规定数据使关于所述摩擦卡合元件卡合时的所述回报的期待收益增加的方式被更新后的所述关系规定数据。所述第2执行装置被构成为在计算出的所述转矩变量所表示的所述输入转矩的变化量为预先确定的预定值以上的情况下，在被计算出所述输入转矩的变化量的摩擦卡合元件卡合时，限制所述关系规定数据的变化。

若假设在切换自动变速器的变速档的期间，自动变速器的输入转矩发生变化，则爆发量、变速时间、发热量等特定变量也发生变化。因此，在输入转矩的变化量较大的情况下，输入转矩的变化量对特定变量的影响有时比液压指令值对特定变量的影响大。

根据本发明的上述各方式，在通过强化学习对在切换自动变速器的变速档时向自动变速器供给的油的压力即液压指令值进行学习时，当输入转矩的变化量为预先确定的预定值以上的情况下，不使关系规定数据变化。因此，在有可能与液压指令值无关地对特定变量造成影响的状况下，不会因基于特定变量的学习而使液压指令值较大地变化。

附图说明

下面将参考附图描述本发明的示例性实施例的特征、优点以及技术和工业意义，在附图中，相同的附图标记表示相同的元件，并且其中：

图1是表示第1实施方式的车辆及其控制装置的图。

图2是表示该实施方式的控制装置所执行的处理的步骤的流程图。

图3是表示该实施方式的控制装置所执行的处理的一部分的详细步骤的流程图。

图4是表示该实施方式的控制装置所执行的处理的一部分的详细步骤的流程图。

图5是表示第2实施方式的控制装置所执行的处理的步骤的流程图。

图6是表示第3实施方式的自动变速器的控制系统的结构的图。

图7的A和B是表示控制系统所执行的处理的步骤的流程图。

图8是表示变形例的转矩变量的图。

图9是表示变形例的转矩变量的图。

具体实施方式

第1实施方式

如图1所示，车辆VC搭载有内燃机10。动力分配装置20与内燃机10的曲轴12机械地连结。动力分配装置20分配内燃机10、第1电动发电机22以及第2电动发电机24的动力。动力分配装置20包括具有行星架C、太阳轮S、齿圈R的行星齿轮机构。曲轴12与动力分配装置20的行星架C机械地连结。第1电动发电机22的旋转轴22a与动力分配装置20的太阳轮S机械地连结。第2电动发电机24的旋转轴24a与动力分配装置20的齿圈R机械地连结。需要说明的是，第1逆变器23的输出电压施加于第1电动发电机22的端子。另外，第2逆变器25的输出电压施加于第2电动发电机24的端子。

动力分配装置20的齿圈R，除了连结有第2电动发电机24的旋转轴24a之外，还经由自动变速器26机械地连结有驱动轮30。省略详细的说明，但自动变速器26包括第1行星齿轮机构G1、第2行星齿轮机构G2、第1离合器C1、第2离合器C2、第1制动器B1、第2制动器B2、单向离合器F以及液压控制回路28。利用来自液压控制回路28的工作油切换第1离合器C1、第2离合器C2、第1制动器B1以及第2制动器B2的卡合、释放。另外，通过变更上述第1离合器C1、第2离合器C2、第1制动器B1以及第2制动器B2的卡合、释放的组合，来变更自动变速器26的变速档。需要说明的是，在自动变速器26中，第1离合器C1、第2离合器C2、第1制动器B1以及第2制动器B2作为摩擦卡合元件发挥功能。

另外，油泵32的从动轴32a与动力分配装置20的行星架C机械地连结。油泵32是吸入油盘34内的油并将该油作为工作油向自动变速器26喷出的泵。需要说明的是，从油泵32喷出的工作油利用自动变速器26内的液压控制回路28调整其压力而作为工作油使用。液压控制回路28具备多个电磁阀28a，是通过该各电磁阀28a的通电来控制工作油的流动状态、工作油的液压的回路。

控制装置40以内燃机10为控制对象，为了控制作为其控制量的转矩、排气成分比例等，操作内燃机10的各种操作部。另外，控制装置40以第1电动发电机22为控制对象，为了控制作为其控制量的转矩、转速等，操作第1逆变器23。另外，控制装置40以第2电动发电机24为控制对象，为了控制作为其控制量的转矩、转速等，操作第2逆变器25。而且，控制装置40以自动变速器26为控制对象，为了对自动变速器26的摩擦卡合元件进行卡合处理，操作电磁阀28a。需要说明的是，在附图中，将控制装置40为了操作内燃机10、自动变速器26而传送的信号图示为操作信号MS。

控制装置40在控制上述控制量时，参照曲柄角传感器50的输出信号Scr、检测第1电动发电机22的旋转轴22a的旋转角的第1旋转角传感器52的输出信号Sm1、检测第2电动发电机24的旋转轴24a的旋转角的第2旋转角传感器54的输出信号Sm2。另外，控制装置40参照由油温传感器56检测的油的温度即油温Toil、由车速传感器58检测的车速SPD、由加速器传感器62检测出的加速器踏板60的踩下量即加速器操作量ACCP。

控制装置40具备CPU42、ROM44、能够电改写的非易失性存储器即存储装置46、以及外围电路48，它们能够经由内部总线49进行通信。在此，外围电路48包括生成规定内部的动作的时钟信号的电路、电源电路、复位电路等。控制装置40通过CPU42执行存储于ROM44的程序来对控制量进行控制。

在图2中表示控制装置40所执行的处理的步骤。通过CPU42例如以预定周期重复执行存储于ROM44的学习程序DPL，来实现图2所示的处理。即，CPU42按照学习程序DPL来执行自动变速器26的液压的学习用法。需要说明的是，在以下，由开头带有“S”的数字表示各处理的步骤编号。

在图2所示的一系列处理中，CPU42首先判定是否是从变速档的切换开始到切换完成为止的变速期间，换言之判定是否是自动变速器26的变速期间(S10)。CPU42在判定为是变速期间的情况(S10：YES)下，获取作为车辆VC的状态s的加速器操作量ACCP、变速变量ΔVsft、油温Toil、阶段变量Vpase以及第2电动发电机24的检测转速Nm2(S12)。在此，变速变量ΔVsft是用于确定是从1档向2档的变速还是从2档向1档的变速等变速档的切换前和切换后的变量。换言之，是确定变速档的切换种类的变量。另外，阶段变量Vpase是用于确定是决定变速期间中的变速的时期的3个阶段中的哪一个的变量。

即，在第1实施方式中，将变速期间划分为阶段1、阶段2以及阶段3。在此，阶段1是从变速档的切换开始时到经过预先确定的时间为止的期间。阶段2是从阶段1结束时到转矩相结束时为止的期间。换言之，是从阶段1结束时到通过变速档的切换而从卡合状态切换为释放状态的摩擦卡合元件的转矩传递率成为零为止的期间。CPU42基于实际的输入轴的转速相对于自动变速器26的输入轴的转速的偏差来判定阶段2的终点，该自动变速器26的输入轴的转速根据自动变速器26的输出轴的转速和变速档切换前的变速比确定。需要说明的是，输入轴的转速设为检测转速Nm2即可。另外，CPU42根据车速SPD计算自动变速器26的输出轴的转速。阶段3是从阶段2结束时到变速档的切换完成为止的期间。换言之，是从阶段2结束时到自动变速器26的变速完成为止的期间。顺带说下，利用CPU42基于输出信号Sm2计算上述检测转速Nm2。

状态s是由存储于图1所示的存储装置46的关系规定数据DR规定与动作变量之间的关系的变量的值。在此，在第1实施方式中，作为动作变量，例示在切换变速档时为了驱动摩擦卡合元件而向自动变速器26供给的油的压力即液压指令值P*的修正值ΔP。

详细而言，对于阶段1和阶段2，液压指令值P*在该期间为恒定。对于阶段3，液压指令值P*设为以恒定速度上升的液压指令值P*。

液压指令值P*通过基础值Pba*与修正值ΔP之和来计算。在以加速器操作量ACCP、变速变量ΔVsft以及油温Toil为输入变量、以基础值Pba*为输出变量的映射数据预先存储于ROM44的状态下，由CPU42对基础值Pba*进行映射运算，来实现基础值Pba*。

并且，关系规定数据DR包括动作价值函数Q。动作价值函数Q是以状态s和动作a为独立变量、以对这些状态s和动作a期待的收益为从属变量的函数。在第1实施方式中，将动作价值函数Q设为表形式的函数。

接下来，CPU42基于由关系规定数据DR规定的策略π，计算动作变量的值、即液压指令值P*的修正值ΔP(S14)。在第1实施方式中，作为策略，例示ε贪婪策略。即，例示确定如下这样的规则的策略：在提供了状态s时，优先选择独立变量成为所提供的状态s的动作价值函数Q中最大的动作(以下，称为贪婪动作ag)，同时以预定的概率选择除此之外的动作。具体而言，在以“|A|”表示动作能够采取的值的总数的情况下，将采取除贪婪动作之外的动作的概率分别设为“ε/|A|”。

顺带说下，在第1实施方式中，将动作价值函数Q设为表形式的数据，鉴于此，设作为独立变量的状态s具有一定的宽度。即，例如在对于加速器操作量ACCP以10％间隔定义动作价值函数Q的情况下，加速器操作量ACCP为“3％”的情况和为“6％”的情况不会仅因此而成为不同的状态s。

接下来，CPU42通过将基础值Pba*和修正值ΔP相加来计算液压指令值P*，操作通电电流I以使电磁阀28a的通电电流I成为基于液压指令值P*决定的值(S16)。然后，CPU42计算爆发量ΔNm2和发热量CV(S18)。

爆发量ΔNm2是对变速期间的自动变速器26的输入轴的转速的爆发量量化而得到的，计算为根据第2旋转角传感器54的输出信号Sm2计算得到的检测转速Nm2超过预先确定的成为基准的目标转速Nm2*的量。在此，CPU42根据加速器操作量ACCP、车速SPD以及变速变量ΔVsft设定成为基准的目标转速Nm2*。能够在以加速器操作量ACCP、车速SPD以及变速变量ΔVsft为输入变量、以成为基准的目标转速Nm2*为输出变量的映射数据预先存储于ROM44的状态下，利用CPU42对成为基准的目标转速Nm2*进行映射运算，来实现该处理。需要说明的是，映射数据是输入变量的离散的值和分别对应于输入变量的值的输出变量的值的组数据。另外，映射运算设为如下这样的处理即可：例如在输入变量的值与映射数据的输入变量的值的某一个一致的情况下，将对应的映射数据的输出变量的值作为运算结果，相对于此，在不一致的情况下，将通过对映射数据所包含的多个输出变量的值进行插值而得到的值作为运算结果。

另一方面，在第1实施方式中，发热量CV作为与从释放状态和卡合状态这2个状态中的一个状态向另一个状态转移时的摩擦卡合元件的一对转速差和施加于它们的转矩之积成正比的量而计算出的。详细而言，CPU42基于作为自动变速器26的输入轴的转速的检测转速Nm2、根据车速SPD掌握的自动变速器26的输出轴的转速以及根据加速器操作量ACCP掌握的转矩，计算发热量CV。具体而言，在以输入轴的转速、输出轴的转速以及加速器操作量ACCP为输入变量、以发热量CV为输出变量的映射数据预先存储于ROM44的状态下，利用CPU42对发热量CV进行映射运算。

CPU42执行S16、S18的处理，直到当前的阶段完成(S20：NO)。然后，CPU42在判定为当前的阶段完成的情况(S20：YES)下，通过强化学习来更新关系规定数据DR(S22)。需要说明的是，CPU42在完成S22的处理的情况、在S10的处理中进行否定判定的情况下，暂时结束图2所示的一系列处理。

在图3中表示S22的处理的详细情况。在图3所示的一系列处理中，CPU42首先判定阶段变量Vpase是否为“3”(S30)。然后，CPU42在判定为是“3”的情况(S30：YES)下，由于变速完成，因此计算变速所需的时间即变速时间Tsft(S32)。具体而言，变速时间Tsft是从用于切换变速档的控制开始到作为自动变速器26的输入轴的转速的检测转速Nm2与根据车速SPD掌握的自动变速器26的输出轴的转速之比与变速后的变速档的变速比一致并经过一定的期间为止的时间。然后，CPU42计算与变速时间Tsft相应的回报r1(S34)。详细而言，CPU42在变速时间Tsft较小的情况下，与变速时间Tsft较大的情况相比，将回报r1计算为更大的值。

接下来，CPU42将通过S18的处理以预定周期重复计算得到的爆发量ΔNm2中的最大值代入到爆发量最大值ΔNm2max(S36)。接下来，CPU42计算与爆发量最大值ΔNm2max相应的回报r2(S38)。详细而言，CPU42在爆发量最大值ΔNm2max较小的情况下，与爆发量最大值ΔNm2max较大的情况相比，将回报r2计算为更大的值。

接下来，CPU42计算通过S18的处理以预定周期重复计算得到的发热量CV的累积值即发热量InCV(S40)。接下来，CPU42计算与发热量InCV相应的回报r3(S42)。详细而言，CPU42在发热量InCV较小的情况下，与发热量InCV较大的情况相比，将回报r3计算为更大的值。

然后，CPU42将回报r1、回报r2以及回报r3之和代入到针对在S16的处理中所使用的动作的回报r(S44)。另一方面，CPU42在判定为阶段变量Vpase为“1”或“2”的情况(S30：NO)下，对回报r代入“0”(S46)。

在CPU42完成S44、S46的处理的情况下，CPU42通过进行更新量修正处理来修正更新量(S48)。需要说明的是，关于更新量修正处理的详细情况将在以后叙述。CPU42在S48的处理完成时，基于进行了更新量修正处理的回报r和学习率α更新在S14的处理中所使用的动作价值函数Q(s，a)(S50)。需要说明的是，在S14的处理中所使用的动作价值函数Q(s，a)是以通过S12的处理获取到的状态s和通过S14的处理设定的动作a为独立变量的动作价值函数Q(s，a)。

在第1实施方式中，通过作为异策略型的TD法的所谓Q学习来更新动作价值函数Q(s，a)。具体而言，利用以下的式(c1)更新动作价值函数Q(s，a)。

Q(s，a)←Q+α·{r+γ·maxQ(s+1，a)-Q(s，a)}…(c1)

在此，动作价值函数Q(s，a)的更新量“α·{r+γ·maxQ(s+1，a)-Q(s，a)}”使用折扣率γ和学习率α。需要说明的是，折扣率γ是比“0”大且“1”以下的常数。另外，在当前的阶段为阶段1、2的情况下，“maxQ(s+1，a)”是指具有阶段完成时的状态变量、即以应由图2所示的一系列处理的下次的S12处理获取的状态s+1为独立变量的动作价值函数Q中的具有最大值的动作价值函数Q。需要说明的是，只要当前的阶段不是阶段3，由图2所示的一系列处理的下次的S12处理获取的状态s就设为由S50处理使用的状态s+1。另外，在当前的阶段为阶段3的情况下，将通过图2所示的一系列处理的本次的S12处理获取到的状态s设为状态s+1。

需要说明的是，在S50的处理完成的情况下，CPU42暂时结束图3所示的一系列处理。顺带说下，车辆VC出厂时的关系规定数据DR设为在与车辆VC规格相同的试制车等中通过与图2的处理同样的处理进行学习得到的数据。即，图2的处理是用于通过强化学习将在车辆VC出厂前设定的基础值Pba*和修正值ΔP中的修正值ΔP更新为车辆VC实际在道路行驶时恰当的值的处理。

接下来，说明更新量修正处理。具体而言，进行回报r和学习率α的设定。如图4所示，首先CPU42计算转矩变量TRv作为表示卡合处理中的自动变速器26的输入转矩的变化量的变量(S60)。转矩变量TRv在第1实施方式中被计算为变速档的切换开始时的加速器操作量ACCP与变速档的切换完成时的加速器操作量ACCP之差的绝对值。因此，这些加速器操作量ACCP之差的绝对值越大，则转矩变量TRv计算得越大。

接下来，CPU42判定转矩变量TRv是否小于预先确定的第1预定值ΔT1(S62)。在转矩变量TRv小于第1预定值ΔT1的情况(S62：YES)下，CPU42将回报r设定为对在S44或者S46中计算得到的回报r乘以预先确定的第1修正系数k1后的值(S64)。在第1实施方式中，第1修正系数k1被设定为“1”。另外，CPU42将学习率α设定为预先确定的学习率α1(S66)。学习率α1被设定为比“0”大且比“1”小的值。

另一方面，在转矩变量TRv为第1预定值ΔT1以上的情况(S62：NO)下，CPU42判定转矩变量TRv是否小于预先确定的第2预定值ΔT2(S68)。第2预定值ΔT2设定为比第1预定值ΔT1大的值。在转矩变量TRv小于第2预定值ΔT2的情况(S68：YES)下，CPU42将回报r设定为对在S44或者S46中计算出的回报r乘以预先确定的第2修正系数k2后的值(S70)。第2修正系数k2设定为比第1修正系数k1小且比“0”大的值。另外，CPU42将学习率α设定为预先确定的学习率α1(S72)。需要说明的是，在此设定的学习率α1是与在步骤S66中设定的学习率α1相同的值。

另一方面，在转矩变量TRv为第2预定值ΔT2以上的情况(S68：NO)下，CPU42判定转矩变量TRv是否小于预先确定的第3预定值ΔT3(S74)。第3预定值ΔT3设定为比第2预定值ΔT2大的值。在转矩变量TRv小于第3预定值ΔT3的情况(S74：YES)下，CPU42将回报r设定为对在S44或者S46中计算出的回报r乘以预先确定的第3修正系数k3后的值(S76)。第3修正系数k3设定为比第2修正系数k2小且比“0”大的值。另外，CPU42将学习率α设定为预先确定的学习率α1(S78)。需要说明的是，在此设定的学习率α1为与在步骤S66中设定的学习率α1相同的值。

另一方面，在转矩变量TRv为第3预定值ΔT3以上的情况(S74：NO)下，CPU42将回报r设定为对在S44或者S46中计算出的回报r乘以预先确定的第4修正系数k4后的值(S80)。在第1实施方式中，第4修正系数k4设定为“0”。因此，通过S80修正的回报r为“0”。另外，CPU42将学习率α设定为“0”(S82)。

第3预定值ΔT3预先通过实验、仿真确定。具体而言，通过比较由输入转矩的变化量对爆发量ΔNm2、变速时间Tsft、发热量InCV等特定变量造成的影响与由液压指令值P*对特定变量造成的影响而设定第3预定值ΔT3。然后，将第3预定值ΔT3设定为使输入转矩的变化量所造成的影响比液压指令值P*所造成的影响占主导地位的值。

另外，预先设定第1预定值ΔT1和第2预定值ΔT2，以使转矩变量TRv将从“0”到第3预定值ΔT3的范围三等分。因此，在第1实施方式中，第1预定值ΔT1比第2预定值ΔT2和第3预定值ΔT3小。具体而言，第1预定值ΔT1为第3预定值ΔT3的3分之1的值。另外，第2预定值ΔT2比第3预定值ΔT3小。具体而言，第2预定值ΔT2为第3预定值ΔT3的3分之2的值。

如上所述，在转矩变量TRv小于第3预定值ΔT3的情况下，转矩变量TRv越大，修正系数设定得越小。因此，在转矩变量TRv小于第3预定值ΔT3的情况下，转矩变量TRv越大，回报r被修正为越小的值。

然后，在转矩变量TRv为第3预定值ΔT3以上的情况下，在前述的S50的更新处理中，通过将学习率α设定为“0”，动作价值函数Q不发生变化而被更新。需要说明的是，CPU42在S66、S72、S78、S82的处理完成的情况下，暂时结束图4所示的一系列处理。

在此，说明第1实施方式的作用和效果。(1-1)根据上述第1实施方式，CPU42在变速期间，选择贪婪动作ag并操作电磁阀28a的通电电流，同时以预定的概率使用贪婪动作以外的动作来搜索更好的液压指令值P*的修正值ΔP。然后，CPU42通过Q学习来更新为了决定液压指令值P*而所使用的修正值ΔP的动作价值函数Q。由此，在车辆VC实际行驶时能够通过强化学习来学习恰当的液压指令值P*。

(1-2)在切换变速档的期间，若由于加速器操作量ACCP发生变化而自动变速器26的输入转矩发生变化，则爆发量ΔNm2、变速时间Tsft、发热量InCV等特定变量也发生变化。然后，在输入转矩的变化量较大、转矩变量TRv为第3预定值ΔT3以上的情况下，输入转矩的变化量对于特定变量的影响比摩擦卡合元件的油的压力对于特定变量的影响大。根据上述第1实施方式，CPU42在转矩变量TRv为第3预定值ΔT3以上的情况下，不使动作价值函数Q变化。因此，在有可能与液压指令值P*无关地对特定变量造成影响的状况下，不会由于基于特定变量的学习而使液压指令值P*大幅地发生变化。

(1-3)根据上述第1实施方式，在转矩变量TRv小于第3预定值ΔT3的情况下，转矩变量TRv的大小越小，与回报r相乘的修正系数的大小越大。因此，关于回报r，在转矩变量TRv小于第3预定值ΔT3的情况下，转矩变量TRv的变化量越大，回报被修正得越小。因此，在特定变量的影响较小的状况下，学习导致的动作价值函数Q的更新量变小，在特定变量的影响较大的状况下，学习导致的动作价值函数Q的更新量变大。

(1-4)根据上述第1实施方式，在转矩变量TRv为第3预定值ΔT3以上的情况下，CPU42通过更新量修正处理，将学习率α设为“0”，更新动作价值函数Q。由此，在转矩变量TRv为第3预定值ΔT3以上的情况下，CPU42不使动作价值函数Q变化而进行更新处理。其结果，若车辆的状态s相同，则通过关系规定数据DR导出的液压指令值P*也不发生变化。像这样，通过利用学习率α的数值来实现不使动作价值函数Q变化的处理，能够抑制由于输入转矩的变化量的大小而处理较大地改变，有助于一系列学习处理的简化。

第2实施方式

以下，以与第1实施方式的不同点为中心，参照附图并说明第2实施方式。

在图5中表示第2实施方式的S22处理的详细步骤。通过CPU42执行存储于ROM44的学习程序DPL，来实现图5所示的处理。

在图5所示的一系列处理中，CPU42在与变速时间Tsft相应的回报r1的计算处理(S34a)、与爆发量最大值ΔNm2max相应的回报r2的计算处理(S38a)、与发热量InCV相应的回报r3的计算处理(S42a)中使用加速器操作量ACCP和变速变量ΔVsft。

接下来，说明上述第2实施方式的作用和效果。(2-1)根据上述第2实施方式，根据加速器操作量ACCP、变速的种类赋予回报r1、r2、r3是基于以下的理由。

第1，这是用于以如下这样的方式学习贪婪动作ag的设定：根据加速器操作量ACCP和变速变量ΔVsft，而使3个要求要素的优先级不同：与变速时间Tsft具有强相关的加速器响应、与爆发量最大值ΔNm2max具有强相关的驾驶性能、发热量InCV。

即，例如当在与从1档向2档切换时相比在从2档向1档切换时加速器响应的优先级较高的情况下，针对相同的变速时间Tsft的回报的绝对值在从2档向1档切换时比从1档向2档切换时设定得大。另外，在该情况下，例如对于从1档向2档切换，通过提高发热量InCV的优先级，从而与从2档向1档切换时相比，增大针对相同的发热量InCV的回报r3的绝对值即可。

第2，这是因为，由于施加于自动变速器26的转矩、转速根据加速器操作量ACCP、变速的种类而不同等，因此爆发量最大值ΔNm2max、变速时间Tsft以及发热量InCV所能采取的值根据加速器操作量ACCP、变速的种类而不同。因此，在不管加速器操作量ACCP、变速的种类如何都对变速时间Tsft等一律赋予相同的回报r1的情况下，学习可能变得困难。

像这样，在第2实施方式中，通过根据加速器操作量ACCP和变速变量ΔVsft而使回报r1、r2、r3可变，从而能够进行反映了针对变速时间Tsft、爆发量ΔNm2以及发热量InCV的优先级根据加速器操作量ACCP、变速的种类而不同的学习。另外，爆发量最大值ΔNm2max、变速时间Tsft以及发热量InCV能够采取的值根据加速器操作量ACCP而不同，鉴于此，能够赋予回报r1～r3，进而能够顺利地进行学习。即，所计算的回报r针对自动变速器26的变速档的每个切换种类而不同。因此，根据变速档的切换种类，学习不同的关系规定数据DR。由此，针对变速档的每个切换种类得到恰当的液压指令值P*。

第3实施方式

以下，以与第1实施方式的不同点为中心，参照附图并说明第3实施方式。

在图6中示出第3实施方式的系统的结构。需要说明的是，关于在图6中与图1所示的构件相对应的构件，为了方便起见，标注相同的附图标记，省略其说明。如图6所示，车辆VC(1)的控制装置40具备通信机47，能够利用通信机47经由外部的网络80而与数据分析中心90进行通信。

数据分析中心90分析从多个车辆VC(1)、VC(2)、…发送的数据。数据分析中心90具备CPU92、ROM94、存储装置96以及通信机97，它们能够经由内部总线99进行通信。需要说明的是，存储装置96是能够电改写的非易失性的装置，存储关系规定数据DR。

在图7中示出第3实施方式的强化学习的处理步骤。通过CPU42执行存储于图6所示的ROM44的学习子程序DPLa，来实现图7的A所示的处理。另外，通过CPU92执行存储于ROM94的学习主程序DPLb，来实现图7的B所示的处理。需要说明的是，对于在图7中与图2所示的处理相对应的处理，为了方便起见，标注相同的步骤编号。在以下，按照强化学习的时间序列说明图7所示的处理。

在图7的A所示的一系列处理中，控制装置40的CPU42首先在执行S10～S18的处理时判定变速是否完成了(S90)。然后，CPU42在判定为变速完成了的情况(S90：YES)下，操作通信机97将用于通过强化学习更新关系规定数据DR的数据连同车辆VC(1)的识别记号一起发送(S92)。在该数据中包括状态s、动作a、爆发量ΔNm2、发热量CV等。

相对于此，如图7的B所示，数据分析中心90的CPU92接收用于更新关系规定数据DR的数据(S100)。然后，CPU92基于接收到的数据执行S22的处理。然后，CPU92通过操作通信机97，来向通过S100的处理接收到的数据的发送源发送用于更新关系规定数据DR的数据(S102)。需要说明的是，CPU92在完成S102的处理的情况下暂时结束图7的B所示的一系列处理。

相对于此，如图7的A所示，CPU42接收更新用的数据(S94)。然后，CPU42基于接收到的数据，更新在S14的处理中利用的关系规定数据DR(S96)。需要说明的是，在完成S96的处理的情况、在S10、S90的处理中进行否定判定的情况下，CPU42暂时结束图7的A所示的一系列处理。顺带说下，当在S90的处理中进行了否定判定之后，再次执行图7的A所示的一系列处理的情况下，除了是阶段的起点的情况之外，CPU42不会通过S12～S16的处理重新更新动作a。即，在该情况下，仅重新执行S18的处理。

说明上述第3实施方式的作用和效果。(3-1)根据上述第3实施方式，在车辆VC(1)的外部进行关系规定数据DR的更新处理，因此能够减轻控制装置40的运算负载。而且，例如在S100的处理中，若接收来自多个车辆VC(1)、VC(2)、…的数据进行S22的处理，则能够容易地增大学习所使用的数据数量。

对应关系

上述实施方式中的事项与上述“发明内容”部分所记载的事项的对应关系如下所述。动力源对应于内燃机10、第1电动发电机22、第2电动发电机24。存储装置对应于存储装置46。获取车辆的状态的处理对应于S12的处理，向自动变速器供给油的处理对应于S16的处理。将变量中的至少一者作为变量特定变量进行计算的处理对应于S18、S32、S36、S40的处理。计算回报的处理对应于图3的S34、S38、S42、S48的处理、图5的S34a、S38a、S42a、S48的处理。更新关系规定数据的处理对应于S50的处理。计算转矩变量的处理对应于S60的处理。更新映射对应于学习程序DPL中执行S50的处理的指令所规定的映射。换言之，更新映射对应于由上述的式(c1)规定的映射。计算机对应于图1的CPU42、图6的CPU42、92。修正回报的处理对应于S62～S78的处理。控制装置对应于控制装置40。执行装置对应于图1的CPU42和ROM44、图6的CPU42、92以及ROM44、94。第1执行装置对应于CPU42和ROM44，第2执行装置对应于CPU92和ROM94。

其他实施方式

需要说明的是，上述各实施方式能够如以下这样变更来实施。上述各实施方式和以下的实施方式能够在技术上不矛盾的范围内相互组合来实施。

关于用于基于关系规定数据选择动作变量的值的状态

·作为用于基于关系规定数据选择动作变量的值的状态，不限于在上述实施方式中例示的状态。例如，作为取决于阶段2、阶段3之前的动作变量的值的状态变量，不限于检测转速Nm2，例如也可以是爆发量ΔNm2。另外，例如也可以设为发热量CV。当然，例如如后述的“关于更新映射”的部分所记载的那样，在使用profitsharing的算法的情况等下，也可以在用于选择动作变量的值的状态中不包括取决于阶段2、阶段3之前的动作变量的值的状态变量。

关于获取处理

·并不是必须将加速器操作量ACCP包含于状态变量。

·并不是必须将油温Toil包含于状态变量。

·并不是必须将阶段变量Vpase包含于状态变量。例如也可以将从变速档的切换开始起的时间、输入轴的转速、变速变量ΔVsft包含于状态变量，构成指定每次动作的动作价值函数Q，使用该动作价值函数来进行强化学习。在该情况下，不预先将变速期间指定为3个阶段。

关于动作变量

·在上述实施方式中，将液压指令值P*的修正值ΔP设为动作变量，但不限于此，也可以设为液压指令值P*、例如向电磁阀28a通电的通电电流的指令值、指令值的变化速度。

关于关系规定数据

·在上述实施方式中，将动作价值函数Q设为表形式的函数，但不限于此。例如，也可以使用函数近似器。

·例如，也可以代替使用动作价值函数Q，用以状态s和动作a为独立变量、以采取动作a的概率为从属变量的函数近似器表示策略π，根据回报r来更新决定函数近似器的参数。

关于特定变量计算处理

·在特定变量中包括爆发量ΔNm2、变速时间Tsft、发热量InCV中的至少一个变量即可。

·特定变量例如也可以不是爆发量ΔNm2本身，而是表示爆发量ΔNm2的大小的变量。例如，也可以是在爆发量ΔNm2小于容许的值时为“X”，在爆发量ΔNm2为容许的值以上时为与“X”不同的“Y”的变量。另外，不限于该例，也可以是分为3级以上的变量。这一方面关于其他特定变量也是同样的。

·也可以除发热量InCV之外或者代替它，将每单位时间的发热量设为特定变量。在该情况下，每单位时间的发热量只要将发热量InCV除以变速时间Tsft即可。

关于卡合处理

·在如“关于关系规定数据”的部分所记载的那样将动作价值函数Q设为函数近似器的情况下，通过把关于成为上述实施方式中的表类型的函数的独立变量的动作的离散值的每一个连同状态s一起输入到动作价值函数Q，来选择使动作价值函数Q最大化的动作a即可。

·在如“关于关系规定数据”的部分所记载的那样利用以状态s和动作a为独立变量、以采取动作a的概率为从属变量的函数近似器表示策略π的情况下，基于由策略π表示的概率选择动作a即可。

关于更新处理

·在上述各实施方式中，在转矩变量TRv为第3预定值ΔT3以上的情况下，通过将学习率α设为“0”，以不使关系规定数据变化的方式进行更新处理，但也可以在转矩变量TRv为第3预定值ΔT3以上的情况下不进行更新处理。在该情况下，通过不进行更新处理，而不使关系规定数据变化。具体而言，例如在第1实施方式中，在转矩变量TRv为第3预定值ΔT3以上的情况(S74：NO)下，也可以不进行S50的处理而结束一系列处理。

·另外，在转矩变量TRv小于第3预定值ΔT3的情况下，也可以转矩变量TRv越大，将学习率α设定得越小。转矩变量TRv越大，则能够使通过该更新处理进行更新的量越小。

关于更新映射

·在S50的处理中，例示了作为异策略型的TD法的所谓的Q学习，但不限于此。例如，也可以基于同策略型的TD法即所谓的SARSA法。当然，不限于基于TD法，例如也可以使用蒙特卡罗法、或使用资格迹法(eligibility tracing method)。

·作为基于回报的关系规定数据的更新映射，例如也可以使用按照profitsharing的算法的映射。详细而言，例如，在将使用按照profitsharing的算法的映射的例子作为图2所例示的处理的变形例的情况下，如下这样进行即可。即，在变速完成的阶段执行回报的计算。然后，将计算出的回报分配给按照强化函数决定与变速相关的各状态动作对的规则。在此，作为强化函数，例如也可以使用公知的等比减小函数。特别是，变速时间Tsft与阶段3的动作变量的值具有较强的相关性，因此在分配与变速时间Tsft相应的回报的情况下，作为强化函数使用等比减小函数是有效的。当然，不限于等比减小函数。例如，在基于发热量CV赋予回报的情况下，鉴于发热量CV与阶段1的动作变量的值具有较强的相关性，也可以使向阶段1的分配与发热量CV相应的回报最大。

·例如像“关于关系规定数据”的部分所记载的那样，使用函数近似器表示策略π，在基于回报r直接对其进行更新的情况下，使用策略梯度法等构成更新映射即可。

·不限于仅将动作价值函数Q和策略π中的某一者作为基于回报r的直接的更新对象。例如，也可以如Acotor-Critic法(参与者评价者法)那样，分别更新动作价值函数Q和策略π。另外，在Acotor-Critic法中，不限于此，例如也可以代替动作价值函数Q而将价值函数V作为更新对象。

关于回报计算处理

·在上述实施方式中，在阶段1、阶段2中，将回报r设为零，但不限于此。例如也可以在阶段1中赋予如下回报：阶段1的发热量CV较小的情况的回报比阶段1的发热量CV较大的情况大。另外，例如，也可以在阶段2中赋予如下回报：阶段2的发热量CV较小的情况的回报比阶段2的发热量CV较大的情况大。另外，也可以例如在阶段2中赋予如下回报：阶段2的爆发量ΔNm2较小的情况的回报比阶段2的爆发量ΔNm2较大的情况大。

·作为对发热量较小的情况赋予与发热量较大的情况相比较大的回报的处理，不限于对发热量InCV较小的情况赋予与发热量InCV较大的情况相比较大的回报的处理。例如，也可以对变速期间内的每单位时间的发热量CV的最大值较小的情况赋予比变速期间内的每单位时间的发热量CV的最大值较大的情况大的回报。

·作为表示自动变速器26的输入轴的转速超过成为基准的转速的量的变量，不限于爆发量最大值ΔNm2max，例如也可以是变速期间内的爆发量ΔNm2的平均值。另外，例如也可以是如下这样的变量：对输出变速指令时的输入轴的转速超过成为基准的转速的量进行定量化而得的。

·在上述实施方式中，执行了对变速时间Tsft较短的情况赋予比变速时间Tsft较长的情况大的回报的处理、对超过的量较小的情况赋予比超过的量较大的情况大的回报的处理以及对发热量InCV较小的情况赋予比发热量InCV较大的情况大的回报的处理，但不限于此。例如，关于这三者，也可以仅执行它们中的某一者，或者另外例如仅执行两者。

·在图5的处理中，即使变速时间Tsft相同，也根据加速器操作量ACCP和变速的种类来变更回报r1的大小，但不限于此。例如，也可以不根据加速器操作量ACCP进行变更，而根据变速的种类来进行变更。另外，例如也可以不根据变速的种类进行变更，而根据加速器操作量ACCP来进行变更。

·在图5的处理中，即使爆发量最大值ΔNm2max相同，也根据加速器操作量ACCP和变速的种类来变更回报r2的大小，但不限于此。例如，也可以不根据加速器操作量ACCP进行变更，而根据变速的种类来进行变更。另外，例如也可以不根据变速的种类进行变更，而根据加速器操作量ACCP来进行变更。

·在图5的处理中，即使发热量InCV相同，也根据加速器操作量ACCP和变速的种类来变更回报r3的大小，但不限于此。例如，也可以不根据加速器操作量ACCP进行变更，而根据变速的种类来进行变更。另外，例如也可以不根据变速的种类进行变更，而根据加速器操作量ACCP来进行变更。

关于回报量修正处理

·在上述实施方式中，在转矩变量TRv小于第3预定值ΔT3的情况下，将转矩变量TRv分为3个范围，以转矩变量TRv的范围越大，回报r越小的方式分段地进行修正，但回报r的修正方法不限于上述实施方式的例子。例如，在转矩变量TRv小于第3预定值ΔT3的情况下，也可以以转矩变量TRv越大，则回报r连续变小的方式进行修正。

·另外，在转矩变量TRv小于第3预定值ΔT3的情况下，也可以赋予相同的回报。如前述那样，通过变更学习率α的设定，既可以实现转矩变量TRv越大则更新量越小，也可以更新相同的量。

关于转矩变量计算处理

·在上述各实施方式中，转矩变量TRv不限于变速档的切换开始时的加速器操作量ACCP与变速档的切换完成时的加速器操作量ACCP之差的绝对值。例如，如图8所示，也可以将变速期间中的加速器操作量ACCP的最大值与最小值之差的绝对值作为转矩变量TRvmax进行计算。在该情况下，能够利用变速期间的加速器操作量ACCP的最大值和最小值检测转矩变量TRvmax。因此，即使在变速期间中，加速器操作量ACCP从上升转变为下降或者从下降转变为上升，也能够将加速器操作量ACCP的最大的变化量作为转矩变量TRvmax进行计算。

另外，如图9所示，通过用变速档的切换开始时的加速器操作量ACCP与变速档的切换完成时的加速器操作量ACCP之差的绝对值AVD除以变速时间Tsft，来将转矩变量作为变化比例进行计算。在该情况下，即使加速器操作量ACCP的变化量为相同量，在变速时间Tsft较长的情况和变速时间Tsft较短的情况下，转矩变量也能够设为不同的值。即，能够将转矩变量作为每单位时间的加速器操作量ACCP的变化比例进行计算。转矩变量被计算为输入转矩的变化量越大则值越大即可。

关于车辆用控制系统

·在图7所示的例子中，在车辆侧执行了决定基于策略π的动作的处理(S14的处理)，但不限于此。例如，也可以从车辆VC(1)发送由S12的处理获取到的数据，利用数据分析中心90发送，使用数据，决定动作a，将所决定的动作向车辆VC(1)发送。

·作为车辆用控制系统，不限于由控制装置40和数据分析中心90构成。例如，也可以代替数据分析中心90，使用用户的便携终端。另外，也可以由控制装置40及数据分析中心90和便携终端构成车辆用控制系统。这例如能够通过由便携终端执行S14的处理来实现。

关于执行装置

·作为执行装置，不限于具备CPU42(92)和ROM44(94)而执行软件处理。例如，在上述实施方式中，也可以具备例如ASIC等专用的硬件电路对被软件处理的部件的至少一部分进行硬件处理。即，执行装置是以下的(a)～(c)中任一结构即可。(a)具备按照程序执行上述全部处理的处理装置和存储程序的ROM等程序储存装置。(b)具备按照程序执行上述一部分处理的处理装置和程序储存装置和执行剩下的处理专用的硬件电路。(c)具备执行上述全部处理的专用的硬件电路。在此，具备处理装置和程序储存装置的软件执行装置、专用的硬件电路也可以是多个。

关于计算机

·作为计算机，不限于图1的CPU42、图6的CPU42、92。例如，也可以是用于生成车辆VC(1)出厂前的关系规定数据DR的计算机和搭载于车辆VC(1)的CPU42。在该情况下，期望的是，出厂后的搜索与由用于生成关系规定数据DR的计算机执行的强化学习的搜索相比，动作变量所能够采取的值的范围较小。顺带说下，在车辆出厂前的关系规定数据DR的生成处理中，也可以不存在车辆，在试验台使内燃机10等运转来模拟车辆的行驶，从而模拟地生成车辆的状态，一边掌握根据传感器的检测值等模拟地生成的车辆的状态一边用于强化学习。在该情况下，将模拟地生成的车辆的状态视为基于传感器的检测值的车辆的状态。

关于存储装置

·在上述实施方式中，将存储关系规定数据DR的存储装置和存储学习程序DPL、学习子程序DPLa、学习主程序DPLb的存储装置(ROM44、94)设为独立的存储装置，但不限于此。

关于车辆

·作为车辆，不限于串联并联混合动力车。例如也可以是串联混合动力车、并联混合动力车。需要说明的是，作为车载旋转机，车辆不限于具备内燃机和电动发电机。例如既可以是虽具备内燃机但不具备电动发电机的车辆，另外例如也可以是虽具备电动发电机但不具备内燃机的车辆。

Claims

1.一种自动变速器的液压的学习方法，所述自动变速器搭载于车辆，与所述车辆的动力源连接，并且包括制动器和离合器中的至少一者作为摩擦卡合元件，所述自动变速器的液压的学习方法的特征在于包括：

在用于规定所述车辆的状态与液压指令值的关系的关系规定数据被存储于存储装置的状态下，获取所述车辆的状态，该液压指令值是在切换所述自动变速器的变速档的所述摩擦卡合元件进行卡合时向所述自动变速器供给的油的压力；

在切换所述自动变速器的变速档的所述摩擦卡合元件进行卡合时，以使要供给的油的压力的值成为由所获取的所述车辆的状态和所述关系规定数据决定的所述液压指令值的方式，向所述自动变速器供给油；

在所述摩擦卡合元件被卡合时，计算表示所述自动变速器的检测输入转速超过所述自动变速器的目标输入转速的量的变量、表示从所述变速档的切换开始到切换完成为止的变速时间的变量以及表示由所述自动变速器产生的发热量的变量中的至少一个变量作为特定变量；

计算回报，该回报的值在所获取的所述特定变量满足基准的情况下比不满足基准的情况大；

将计算出的所述回报和计算了所述回报的所述摩擦卡合元件卡合时的所述液压指令值作为向预先确定的更新映射的输入来更新所述关系规定数据；以及

计算转矩变量，所述摩擦卡合元件卡合时的所述自动变速器的输入转矩的变化量越大，则该转矩变量的值就越大，其中，

所述更新映射输出以如下方式被更新后的所述关系规定数据，该方式是根据所述关系规定数据使关于所述摩擦卡合元件卡合时的所述回报的期待收益增加的方式，

在计算出的所述转矩变量所表示的所述输入转矩的变化量为预先确定的预定值以上的情况下，在被计算出所述输入转矩的变化量的摩擦卡合元件卡合时，限制所述关系规定数据的变化。

2.根据权利要求1所述的自动变速器的液压的学习方法，其特征在于，

在所述转矩变量小于所述预定值的情况下，将所述回报修正为所述转矩变量越大则使所述回报的值越小。

3.根据权利要求1所述的自动变速器的液压的学习方法，其特征在于，

所述更新映射包括将动作价值函数仅更新更新前的所述动作价值函数乘以学习率而得到的值的更新量的映射，

在所述转矩变量为所述预定值以上的情况下，将所述学习率设为“0”来更新所述关系规定数据。

4.根据权利要求2所述的自动变速器的液压的学习方法，其特征在于，

5.根据权利要求1～4中任一项所述的自动变速器的液压的学习方法，其特征在于，

针对所述自动变速器的变速档的每个切换种类，将所述回报设为不同的所述回报来赋予。

6.根据权利要求1～4中任一项所述的自动变速器的液压的学习方法，其特征在于，

所述转矩变量为开始所述变速档的切换时的作为加速器踏板的操作量的加速器操作量与所述变速档的切换完成时的所述加速器操作量之差。

7.根据权利要求1～4中任一项所述的自动变速器的液压的学习方法，其特征在于，

所述转矩变量为从所述变速档的切换开始到切换完成为止的变速时间中的作为加速器踏板的操作量的加速器操作量的最大值与最小值之差。

8.根据权利要求1～4中任一项所述的自动变速器的液压的学习方法，其特征在于，

所述转矩变量为开始所述变速档的切换时的作为加速器踏板的操作量的加速器操作量与所述变速档的切换完成时的所述加速器操作量之差除以所述变速时间得到的值。

9.一种自动变速器的控制装置，所述自动变速器搭载于车辆，与所述车辆的动力源连接，并且包括制动器和离合器中的至少一者作为摩擦卡合元件，所述控制装置的特征在于包括：

存储装置，构成为存储用于规定所述车辆的状态与液压指令值的关系的关系规定数据，该液压指令值是在切换所述自动变速器的变速档的所述摩擦卡合元件进行卡合时向所述自动变速器供给的油的压力；以及

执行装置，被构成为如下：

获取所述车辆的状态，

在切换所述自动变速器的变速档的所述摩擦卡合元件进行卡合时，以使要供给的油的压力的值成为由所获取的所述车辆的状态和所述关系规定数据决定的所述液压指令值的方式，向所述自动变速器供给油，

在所述摩擦卡合元件被卡合时，计算表示所述自动变速器的检测输入转速超过所述自动变速器的目标输入转速的量的变量、表示从所述变速档的切换开始到切换完成为止的变速时间的变量以及表示由所述自动变速器产生的发热量的变量中的至少一个变量作为特定变量，

计算回报，该回报的值在所获取的所述特定变量满足基准的情况下比不满足基准的情况大，

将计算出的所述回报和计算了所述回报的所述摩擦卡合元件卡合时的所述液压指令值作为向预先确定的更新映射的输入来更新所述关系规定数据，以及

所述执行装置被构成为在计算出的所述转矩变量所表示的所述输入转矩的变化量为预先确定的预定值以上的情况下，在被计算出所述输入转矩的变化量的所述摩擦卡合元件卡合时，限制所述关系规定数据的变化。

10.一种自动变速器的控制系统，所述自动变速器搭载于车辆，与所述车辆的动力源连接，并且包括制动器和离合器中的至少一者作为摩擦卡合元件，所述控制系统的特征在于包括：

存储装置，构成为存储用于规定所述车辆的状态与液压指令值的关系的关系规定数据，该液压指令值是在切换所述自动变速器的变速档的所述摩擦卡合元件进行卡合时向所述自动变速器供给的油的压力；

第1执行装置，被搭载于所述车辆；以及

与所述第1执行装置独立的第2执行装置，其中，

所述第1执行装置被构成为：

获取所述车辆的状态，

所述第1执行装置和所述第2执行装置中的至少一者被构成为：

所述第2执行装置被构成为将计算出的所述回报和计算了所述回报的所述摩擦卡合元件卡合时的所述液压指令值作为向预先确定的更新映射的输入来更新所述关系规定数据，

所述第1执行装置和所述第2执行装置中的至少一者被构成为计算转矩变量，所述摩擦卡合元件卡合时的所述自动变速器的输入转矩的变化量越大，则该转矩变量的值就越大，

所述第2执行装置被构成为在计算出的所述转矩变量所表示的所述输入转矩的变化量为预先确定的预定值以上的情况下，在被计算出所述输入转矩的变化量的摩擦卡合元件卡合时，限制所述关系规定数据的变化。