CN113187613A

CN113187613A - 控制车辆的方法、用于车辆的控制装置、以及服务器

Info

Publication number: CN113187613A
Application number: CN202110095625.0A
Authority: CN
Inventors: 桥本洋介; 片山章弘; 大城裕太; 杉江和纪; 冈尚哉
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-01-29
Filing date: 2021-01-25
Publication date: 2021-07-30
Also published as: CA3102408A1; AU2020286176B2; MX2021000952A; JP2021116782A; AU2020286176A1; TW202128467A; SG10202012180WA; PH12021050035A1; JP7314813B2; US20210229689A1

Abstract

一种控制车辆的方法、用于车辆的控制装置、以及服务器，在存储器中存储有多个映射数据。在控制装置的存储器中存储有映射数据。由控制装置来执行操作处理和取得处理，所述操作处理是使用存储器的映射数据来操作内燃机的电子设备的处理，所述取得处理是取得车辆的状态的处理。由控制装置和服务器来执行数据变更处理，所述数据变更处理是基于车辆的状态，从存储于存储器的各映射数据中选择一个映射数据，并将所选择的映射数据存储于存储器的处理。

Description

控制车辆的方法、用于车辆的控制装置、以及服务器

技术领域

本发明涉及控制车辆的方法、用于车辆的控制装置、以及服务器。

背景技术

在日本特开2013-155632中记载了以抑制因加速器踏板和制动器踏板的错误踩踏而产生的车辆的急起步时的车速上升为目的的车辆用控制装置的一例。在该车辆用控制装置中，在车辆起步时的加速器踏板的操作量为预定量以上时，以使得车辆的动力源的旋转驱动力减小的方式控制动力源。

另外，在该车辆用控制装置中，每当车辆起步时的加速器踏板的操作速度在预定范围内推移这一学习条件成立时，便将加速器踏板的操作量依次存储于存储器。然后，基于存储于存储器的多个操作量导出学习值，并且将该学习值设定为上述预定量。例如，将存储于存储器的多个操作量的平均值作为学习值而导出。

发明内容

使车辆行驶时的与加速器踏板的操作相关的习惯、喜好因人而异。在驾驶一台车辆的用户为同一人的情况下，与多个用户利用一台车辆的情况相比，存储于上述存储器的操作量的偏差不容易变大，所以能够使上述预定量收敛于与该用户的习惯、喜好相应的合适值。结果，能够高精度地判定是否发生了上述那样的错误踩踏。

然而，在多个用户利用的车辆的情况下，当进行驾驶的用户改变时，存储于上述存储器的操作量的大小的倾向可能会改变。在这样的情况下，存储于存储器的多个操作量的偏差变大，无法将上述预定量设定为与此时驾驶车辆的用户对应的合适值，可能会无法适当地判定是否发生了上述那样的错误踩踏。

并且，近年来，希望即使在多个用户利用一台车辆的情况下，也能够提供与用户的习惯、喜好相应的合适的车辆控制。

本发明的第一技术方案涉及控制车辆的方法，

车辆控制方法包括：使用存储于第1存储器的操作用数据来操作所述车辆的电子设备；取得基于设置于所述车辆的传感器的检测值的所述车辆的状态；以及基于所取得的所述车辆的状态，从存储于第2存储器的所述操作用数据中选择一个数据，并将所选择的所述操作用数据存储于所述第1存储器，

所述操作用数据是规定所述车辆的状态与行动变量的关系的关系规定数据、或基于所述关系规定数据制作的控制用映射数据，所述行动变量是与所述电子设备的操作相关的变量，

所述关系规定数据是通过执行如下处理而得到的数据，所述处理包括：以基于通过所述车辆的状态和所述关系规定数据确定的所述行动变量的值操作了所述电子设备时的所述车辆的状态为根据，在所述车辆的特性满足预定的基准的情况下，给予比所述车辆的特性不满足所述预定的基准的情况下大的奖励的处理；和将操作了所述电子设备时的所述车辆的状态、在所述电子设备的操作中使用的所述行动变量的值、以及与该操作对应的所述奖励设为向预先设定的更新映射的输入，对所述关系规定数据进行更新的处理，

所述更新映射输出以使得关于根据所述关系规定数据操作所述电子设备的情况下的所述奖励的期待收益增加的方式进行更新而得到的所述关系规定数据，

使所述预定的基准不同地进行更新而得到的多个所述关系规定数据、或基于多个所述关系规定数据中的各个关系规定数据制作的多个所述控制用映射数据是存储于所述第2存储器的所述操作用数据。

根据上述技术方案，在第2存储器中存储有通过上述预定的基准不同的强化学习输出的多个关系规定数据、或基于多个关系规定数据中的各个关系规定数据制作的多个控制用映射数据，来作为操作用数据。并且，基于在通过执行操作处理而操作电子设备时所取得的车辆的状态，从存储于第2存储器的多个操作用数据中选择一个数据，并将所选择的操作用数据存储于第1存储器。

在此，在车辆的状态上反映出此时正在驾驶车辆的用户的喜好、习惯。因此，可以说基于这样的车辆的状态选择的操作用数据是与此时正在驾驶车辆的用户的喜好、习惯相应的数据。

由此，通过将基于车辆的状态的操作用数据存储于第1存储器，并使用该操作用数据来操作电子设备，能够进行与此时正在驾驶车辆的用户的喜好、习惯相应的车辆控制。

因此，根据上述技术方案，即使在多个用户利用一台车辆的情况下，也能够提供与用户的习惯、喜好相应的合适的车辆控制。

在上述技术方案中，在存储于所述第2存储器的所述各操作用数据中，第1操作用数据可以是将与加速器响应相关的参数为与加速器响应相关的阈值以上这一情况设为所述预定的基准进行更新而得到的数据，第2操作用数据可以是将与所述车辆的能量利用效率相关的参数为与能量利用效率相关的阈值以上这一情况设为所述预定的基准进行更新而得到的数据。

根据上述技术方案，在进行使加速器响应优先于车辆的能量利用效率这样的车辆操作的用户正在驾驶车辆时，能够将第1操作用数据存储于第1存储器，并进行使用了该第1操作用数据的电子设备的操作。另一方面，在进行使能量利用效率优先于加速器响应这样的车辆操作的用户正在驾驶车辆时，能够将第2操作用数据存储于第1存储器，并进行使用了该第2操作用数据的电子设备的操作。

在上述技术方案中，在所述车辆的状态中可以包括加速器操作量的变化速度。

在用户操作加速器踏板时，该用户的习惯、喜好容易反映在加速器操作量的变化速度上。因此，根据上述技术方案，能够取得加速器操作量的变化速度来作为车辆的状态，并基于该车辆的状态从存储于第2存储器的各操作用数据中选择一个数据并存储于第1存储器。由此，能够向用户提供反映了该用户的习惯、喜好的车辆控制。

在上述技术方案中，在所述车辆的状态中可以包括所述车辆的加速度。

例如，在用户操作加速器踏板的情况下，加速器操作量的变化速度越高则车辆的加速度越容易变大。即，在用户操作加速器踏板而使车辆加速的情况下，该用户的习惯、喜好容易反映在车辆的加速度上。因此，根据上述构成，能够取得车辆的加速度来作为车辆的状态，并基于该车辆的状态从存储于第2存储器的各操作用数据中选择一个数据并存储于第1存储器。由此，能够向用户提供反映了该用户的习惯、喜好的车辆控制。

在上述技术方案中，所述车辆的电子设备的操作可以由设置于所述车辆的第1处理器使用存储于在所述车辆设置的第1存储器的操作用数据来执行。基于设置于所述车辆的传感器的检测值的所述车辆的状态的取得可以由所述第1处理器来执行。可以由设置于所述车辆的外部的第2处理器从存储于所述第2存储器的所述各操作用数据中选择一个数据。所选择的所述操作用数据可以由所述第2处理器向所述车辆发送。使所述车辆接收从所述第2处理器发送的所述操作用数据的处理可以由所述第1处理器来执行。将接收到的所述操作用数据存储于所述第1存储器的处理可以由所述第1处理器来执行。

根据上述技术方案，存储多个操作用数据的第2存储器不设置于车辆内。因此，与第2存储器被设置于车辆的情况相比，能够减小车载装置的控制负荷。

本发明的第二技术方案涉及的用于车辆的控制装置包括第1存储器和第1处理器，所述第1存储器设置于所述车辆，存储用于操作所述车辆的电子设备的操作用数据，所述操作用数据是规定所述车辆的状态与行动变量的关系的关系规定数据、或基于所述关系规定数据制作的控制用映射数据，所述行动变量是与所述电子设备的操作相关的变量，所述第1处理器设置于车辆，并且构成为，使用存储于所述第1存储器的操作用数据来操作所述车辆的电子设备，取得基于设置于所述车辆的传感器的检测值的所述车辆的状态，使所述车辆接收基于所取得的所述车辆的状态而选择的、存储于在车辆的外部设置的第2存储器的所述操作用数据，将接收到的所述操作用数据存储于所述第1存储器。

在上述技术方案中，从存储于所述第2存储器的多个所述操作用数据中选择并存储于所述第1存储器的所述操作用数据可以是所述关系规定数据。所述第1处理器可以构成为，通过执行奖励算出处理和更新处理来更新存储于所述第1存储器的所述关系规定数据，并且基于通过所取得的所述车辆的状态和存储于所述第1存储器的所述关系规定数据确定的所述行动变量的值来操作所述电子设备，所述奖励算出处理是以基于通过所述车辆的状态和所述关系规定数据确定的所述行动变量的值操作了所述电子设备时的所述车辆的状态为根据，在所述车辆的特性满足预定的基准的情况下，给予比所述车辆的特性不满足所述预定的基准的情况下大的奖励的处理，所述更新处理是将操作了所述电子设备时的所述车辆的状态、在所述电子设备的操作中使用的所述行动变量的值、以及与该操作对应的所述奖励设为向预先设定的更新映射的输入，对所述关系规定数据进行更新的处理。所述更新映射可以输出以使得关于根据所述关系规定数据操作所述电子设备的情况下的所述奖励的期待收益增加的方式进行更新而得到的所述关系规定数据。

根据上述技术方案，在将从存储于第2存储器的各关系规定数据中选择的数据存储于第1存储器以后，在车辆用控制装置中，进行第1存储器的关系规定数据的强化学习。由此，能够进行与此时驾驶车辆的用户的习惯、喜好相应的车辆控制的进一步合适化。

本发明的第三技术方案涉及的服务器包括存储器和处理器，所述存储器存储有用于操作车辆的电子设备的多个操作用数据，所述操作用数据是规定所述车辆的状态与行动变量的关系的关系规定数据、或基于所述关系规定数据制作的控制用映射数据，所述行动变量是与所述电子设备的操作相关的变量，所述关系规定数据是通过执行如下处理而得到的数据，所述处理包括：以基于通过所述车辆的状态和所述关系规定数据确定的所述行动变量的值操作了所述电子设备时的所述车辆的状态为根据，在所述车辆的特性满足预定的基准的情况下，给予比所述车辆的特性不满足所述预定的基准的情况下大的奖励的处理；和将操作了所述电子设备时的所述车辆的状态、在所述电子设备的操作中使用的所述行动变量的值、以及与该操作对应的所述奖励设为向预先设定的更新映射的输入，对所述关系规定数据进行更新的处理，所述更新映射输出以使得关于根据所述关系规定数据操作所述电子设备的情况下的所述奖励的期待收益增加的方式进行更新而得到的所述关系规定数据，所述处理器从所述多个操作用数据中选择一个数据并向车辆发送。

附图说明

以下将参照附图说明本发明的示例性实施方式的特征、优点以及技术和产业意义，在附图中相似的附图标记表示相似的要素，并且其中：

图1是示出第1实施方式涉及的控制装置和驱动系统的图。

图2是示意性地示出该控制装置的构成、和与车辆进行通信的服务器的构成的框图。

图3是示出第1实施方式涉及的生成映射数据的系统的图。

图4是示出第1实施方式涉及的系统所执行的处理的步骤的流程图。

图5是示出第1实施方式涉及的学习处理的详情的流程图。

图6是示出在操作车辆的电子设备时控制装置所执行的处理的步骤的流程图。

图7是示出在改写存储于控制装置的存储器的映射数据时控制装置所执行的处理的步骤的流程图。

图8是示出在向车辆提供与用户的习惯、喜好相符的映射数据时服务器所执行的处理的步骤的流程图。

图9是示意性地示出第2实施方式涉及的控制装置的构成和服务器的构成的框图。

图10是示出在操作车辆的电子设备时控制装置所执行的处理的步骤的流程图。

图11是示出第3实施方式涉及的控制装置的框图。

具体实施方式

(第1实施方式)

以下，参照附图对车辆控制方法、车辆用控制装置以及服务器的第1实施方式进行说明。

在图1中图示出作为车辆用控制装置的控制装置70、和具备控制装置70的车辆VC1的驱动系统的构成。

如图1所示，车辆VC1具备内燃机10作为车辆VC1的推力生成装置。在内燃机10的进气通路12中，从上游侧开始依次设置有节气门14和燃料喷射阀16，被吸入进气通路12的空气和从燃料喷射阀16喷射的燃料伴随进气门18的打开而流入由气缸20和活塞22划分的燃烧室24。在燃烧室24内，燃料与空气的混合气伴随点火装置26的火花放电而被用于燃烧。通过燃烧产生的能量通过活塞22变换为曲轴28的旋转能量。被用于了燃烧的混合气伴随排气门30的打开而作为排气向排气通路32排出。在排气通路32设置有作为对排气进行净化的后处理装置的催化剂34。

在曲轴28能够经由具备锁止离合器42的变矩器40机械地连结有变速装置50的输入轴52。变速装置50是使输入轴52的转速与输出轴54的转速之比即变速比可变的装置。在输出轴54机械地连结有驱动轮60。

控制装置70以内燃机10为控制对象，为了控制作为其控制量的转矩、排气成分比率等，对节气门14、燃料喷射阀16以及点火装置26等内燃机10的操作部进行操作。另外，控制装置70以变矩器40为控制对象，为了控制锁止离合器42的接合状态而操作锁止离合器42。另外，控制装置70以变速装置50为控制对象，为了控制作为其控制量的变速比而操作变速装置50。此外，在图1中记载了节气门14、燃料喷射阀16、点火装置26、锁止离合器42、以及变速装置50各自的操作信号MS1～MS5。像这样被输入了来自控制装置70的操作信号MS1～MS5的操作部中的各个操作部是“电子设备”的一例。

控制装置70为了控制控制量，参照由空气流量计80检测的吸入空气量Ga、由节气门传感器82检测的节气门14的开度即节气门开度TA、以及曲轴角传感器84的输出信号Scr。另外，控制装置70参照由加速器传感器88检测的加速器踏板86的踩踏量即加速器操作量PA、和由加速度传感器90检测的车辆VC1的前后方向的加速度Gx。另外，控制装置70参照由变速位置传感器94检测的变速比GR、和由车速传感器96检测的车速V。

控制装置70具备CPU72、ROM74、作为可电改写的非易失性存储器的存储器76、通信机77以及周边电路78，它们能够通过本地网络79进行通信。在此，周边电路78包括生成规定内部的动作的时钟信号的电路、电源电路以及复位电路等。

在ROM74中存储有控制程序74a。另一方面，在存储器76中存储有映射数据DM。该映射数据DM将节气门开度TA的指令值即节气门开度指令值TA*、和变速比GR的指令值即变速比指令值GR*作为输出变量。映射数据DM是用于将当前的变速比GR、车速V以及加速器操作量PA的时序数据作为输入变量，将节气门开度指令值TA*和变速比指令值GR*作为输出变量的映射。

如图2所示，通信机77是用于经由车辆VC1的外部的网络120与设置于车外的服务器130进行通信的设备。

服务器130解析从多个车辆VC1、VC2、…发送的数据。服务器130具备CPU132、ROM134、作为可电改写的非易失性存储器的存储器136、周边电路138以及通信机137，它们能够通过本地网络139进行通信。在ROM134中存储有控制程序134a，在存储器136中存储有映射数据DM。在本实施方式中，在存储器136中存储有响应优先映射数据DM1和能量效率优先映射数据DM2作为映射数据DM。

在图3中示出生成上述映射数据DM的系统。

在图3所示的系统中，在内燃机10的曲轴28经由变矩器40和变速装置50机械地连结有测功机(dynamometer)100。并且，由传感器组102来检测使内燃机10工作时的各种状态变量，并将检测结果向生成映射数据DM的计算机即生成装置110输入。此外，在传感器组102中包括搭载于图1所示的车辆VC1的传感器等。

生成装置110具备CPU112、ROM114、作为可电改写的非易失性存储器的存储器116、以及周边电路118，它们能够通过本地网络119进行通信。在存储器116中存储有映射数据DM。在本实施方式中，在存储器116中存储有响应优先映射数据DM1和能量效率优先映射数据DM2作为映射数据DM。在ROM114中存储有通过强化学习对后述的关系规定数据DR进行学习的学习程序114a。

在图4中示出生成装置110所执行的处理的步骤。图4所示的一系列的处理通过CPU112执行存储于ROM114的学习程序114a来实现。此外，以下，利用在开头标注有“S”的数字来表示各处理的步骤编号。

在图4所示的一系列的处理中，CPU112设定优先系数VA的值(S10)。优先系数VA是用于决定进行后述的响应优先规定数据DR1和能量效率优先规定数据DR2中的哪一方的关系规定数据的学习的系数。例如，在优先系数VA为“1”时对响应优先规定数据DR1进行学习，在优先系数VA为“2”时对能量效率优先规定数据DR2进行学习。

在此，关系规定数据DR是规定作为状态变量的加速器操作量PA的时序数据、车速V以及变速比GR与作为行动变量的节气门开度指令值TA*和变速比指令值GR*的关系的数据。关系规定数据DR是通过强化学习导出的数据。关系规定数据DR中的响应优先规定数据DR1是通过以使得与提高车辆的能量利用效率相比，优先提高加速器响应即提高车辆的加速性能的方式进行强化学习，而导出的关系规定数据。另外，能量效率优先规定数据DR2是通过以使得与提高加速器响应相比，优先提高车辆的能量利用效率的方式进行强化学习，而导出的关系规定数据。

CPU112在使内燃机10工作了的状态下，取得由加速器操作量PA的6个采样值“PA(1)、PA(2)、…PA(6)”构成的时序数据、当前的变速比GR、以及车速V，来作为状态s(S12)。在此，构成时序数据的各采样值是在彼此不同的定时采样到的值。在本实施方式中，由以一定的采样周期进行采样的情况下的、在时序上彼此相邻的6个采样值构成时序数据。但是，在图3所示的系统中，不存在加速器踏板86。因此，设为通过生成装置110模拟车辆VC1的状态而近似地生成加速器操作量PA，并将近似地生成的加速器操作量PA视为基于传感器的检测值的车辆的状态。另外，车速V由CPU112作为假定实际上存在车辆的情况下的车辆的行驶速度来算出，在本实施方式中，将该车速V视为基于传感器的检测值的车辆的状态。详细而言，CPU112基于曲轴角传感器84的输出信号Scr算出曲轴28的转速NE，并基于转速NE和变速比GR算出车速V。

接着，CPU112根据响应优先规定数据DR1和能量效率优先规定数据DR2中的与通过S10的处理设定的优先系数VA的值对应的数据所确定的策略π，设定由与通过S12的处理取得的状态s相应的节气门开度指令值TA*和变速比指令值GR*构成的行动a(S14)。

在本实施方式中，关系规定数据DR是确定行动价值函数Q和策略π的数据。在本实施方式中，行动价值函数Q是表示与状态s和行动a的10维自变量相应的期待收益的值的表(table)型函数。另外，策略π设定以下那样的规则：在给予状态s时，优先选择成为自变量为所给予的状态s的行动价值函数Q中的最大行动价值的行动a(贪婪(greedy)行动)，并以预定的概率选择除此以外的行动a。

详细而言，关于本实施方式涉及的行动价值函数Q的自变量可取的值的数量，该数量是状态s和行动a可取的值的全部组合的一部分根据人的知识等而被削减后的数量。即，设为例如在加速器操作量PA的时序数据中的相邻的2个采样值中的一个成为加速器操作量PA的最小值而另一个成为最大值这样的情况不会因为人进行的加速器踏板86的操作而发生，从而不定义行动价值函数Q。另外，为了避免变速比GR从2档向4档急剧地变化，例如在当前的变速比GR为2档的情况下，将作为能够采取的行动a的变速比指令值GR*限制为1档、2档及3档。即，在作为状态s的变速比GR为2档的情况下，不定义4档以上的行动a。在本实施方式中，通过基于人的知识等来削减维度，将定义行动价值函数Q的自变量的可取的值限制为10的5次方个以下，更优选限制为10的4次方个以下。

接着，CPU112基于所设定的节气门开度指令值TA*和变速比指令值GR*，向节气门14输出操作信号MS1而操作节气门开度TA，并且向变速装置50输出操作信号MS5而操作变速比(S16)。接着，CPU112取得转速NE、变速比GR、内燃机10的转矩Trq、对内燃机10的转矩指令值Trq*以及加速度Gx(S18)。在此，CPU112基于测功机100生成的负荷转矩和变速装置50的变速比来算出转矩Trq。另外，转矩指令值Trq*根据加速器操作量PA和变速比GR来设定。此外，在此，由于变速比指令值GR*是强化学习的行动变量，所以变速比指令值GR*不限于使转矩指令值Trq*成为在内燃机10中能够实现的最大转矩以下。因此，转矩指令值Trq*不限于在内燃机10中能够实现的最大转矩以下的值。另外，CPU112基于测功机100的负荷转矩等，将加速度Gx算出为假设在内燃机10等搭载于车辆的情况下设想在车辆中产生的值。即，在本实施方式中，加速度Gx也是假想的值，但也将该加速度Gx视为基于传感器的检测值的车辆的状态。

接着，CPU112判定从进行了S10的处理的定时和进行了后述的S22的处理的定时中的任一较晚的一方起是否经过了预定期间(S20)。并且，CPU112在判定为经过了预定期间的情况下(S20：是)，通过强化学习来更新关系规定数据DR(S22)。

在图5中示出S22的处理的详情。

在图5所示的一系列的处理中，CPU112取得由预定期间内的转速NE、转矩指令值Trq*、转矩Trq以及加速度Gx的4个采样值组构成的时序数据、和状态s及行动a的时序数据(S30)。在图5中，括号中的数字不同的值表示不同的采样定时下的变量的值。例如，转矩指令值Trq*(1)与转矩指令值Trq*(2)的采样定时彼此不同。另外，将预定期间内的行动a的时序数据定义为行动集合Aj，将预定期间内的状态s的时序数据定义为状态集合Sj。

接着，CPU112判定条件(I)与条件(II)的逻辑乘是否为真(S36)，所述条件(I)是指预定期间内的任意的转矩Trq与转矩指令值Trq*之差的绝对值为规定量ΔTrq以下，所述条件(II)是指预定期间内的任意的加速度Gx为下限值GxL以上且为上限值GxH以下。

在此，CPU112根据情节(episode)开始时的加速器操作量PA的每单位时间的变化量ΔPA和优先系数VA的值可变地设定规定量ΔTrq。即，CPU112在变化量ΔPA的绝对值大的情况下，认为是与过渡时相关的情节，与处于稳定时的情况相比，将规定量ΔTrq设定为大的值。另外，在优先系数VA的值是用于进行使提高车辆的能量利用效率优先于提高加速器响应的强化学习的值的情况下，与优先系数VA的值是用于进行使提高加速器响应优先于提高车辆的能量利用效率的强化学习的值的情况相比，CPU112将规定量ΔTrq设定为大的值。并且，在进行优先提高加速器响应的强化学习的情况下，预定期间内的任意的转矩Trq与转矩指令值Trq*之差的绝对值是与加速器响应相关的参数的例子，规定量ΔTrq是与加速器响应相关的参数用的阈值的例子。另一方面，在进行优先提高能量利用效率的强化学习的情况下，预定期间内的任意的转矩Trq与转矩指令值Trq*之差的绝对值是与能量利用效率相关的参数的例子，规定量ΔTrq是与能量利用效率相关的参数用的阈值的例子。

另外，CPU112根据情节开始时的加速器操作量PA的变化量ΔPA可变地设定下限值GxL。即，在处于与过渡时相关的情节且变化量ΔPA为正的情况下，相比于与稳定时相关的情节的情况，CPU112将下限值GxL设定为大的值。另外，在处于与过渡时相关的情节且变化量ΔPA为负的情况下，相比于与稳定时相关的情节的情况，CPU112将下限值GxL设定为小的值。

另外，CPU112根据情节开始时的加速器操作量PA的每单位时间的变化量ΔPA可变地设定上限值GxH。即，在处于与过渡时相关的情节且变化量ΔPA为正的情况下，相比于与稳定时相关的情节的情况，CPU112将上限值GxH设定为大的值。另外，在处于与过渡时相关的情节且变化量ΔPA为负的情况下，相比于与稳定时相关的情节的情况，CPU112将上限值GxH设定为小的值。

另外，CPU112根据优先系数VA的值可变地设定下限值GxL和上限值GxH。即，在优先系数VA的值是用于进行使提高加速器响应优先于提高车辆的能量利用效率的强化学习的值的情况下，与优先系数VA的值是用于进行使提高车辆的能量利用效率优先于提高加速器响应的强化学习的值的情况相比，CPU112以使得过渡时的加速度Gx的绝对值成为较大的值的方式设定下限值GxL和上限值GxH。并且，在进行优先提高加速器响应的强化学习的情况下，加速度Gx是与加速器响应相关的参数的例子，上限值GxH和下限值GxL是与加速器响应相关的参数用的阈值的例子。另一方面，在进行优先提高能量利用效率的强化学习的情况下，加速度Gx是与能量利用效率相关的参数的例子，上限值GxH和下限值GxL是与能量利用效率相关的参数用的阈值的例子。

CPU112在判定为逻辑乘为真的情况下(S36：是)，设定正值α作为奖励r(S38)，另一方面，在判定为假的情况下(S36：否)，设定负值β作为奖励r(S40)。S36～S40的处理是在满足预定的基准的情况下，给予比不满足的情况下大的奖励的处理。如上所述，在本实施方式中，根据优先系数VA的值来变更预定的基准。

然后，CPU112更新存储于图3所示的存储器116的关系规定数据DR。在本实施方式中，使用ε软同策略(ε-soft on-policy)型蒙特卡罗法。

即，CPU112对由通过上述S30的处理读出的各状态与所对应的行动的组确定的收益R(Sj，Aj)分别加上奖励r(S46)。在此，“R(Sj，Aj)”是将状态集合Sj的要素之一作为状态，将行动集合Aj的要素之一作为行动的收益R的总括性的记载。接着，CPU112对由通过上述S30的处理读出的各状态与所对应的行动的组确定的收益R(Sj，Aj)分别进行平均化并代入对应的行动价值函数Q(Sj，Aj)(S48)。在此，平均化只要是将通过S46的处理算出的收益R除以进行了S46的处理的次数的处理即可。此外，收益R的初始值被设为零即可。

接着，CPU112对于通过上述S30的处理读出的状态，分别将成为对应的行动价值函数Q(Sj，A)中的最大值时的节气门开度指令值TA*和变速比指令值GR*的组的行动代入行动Aj*(S50)。在此，“A”表示能够采取的任意的行动。此外，行动Aj*根据通过上述S30的处理读出的状态的种类而成为各自独立的值，但在此，为了简化标记而用同一记号来记载。

此外，CPU112在S52的处理完成的情况下，暂时结束图5所示的一系列的处理。

返回到图4，CPU112在S22的处理完成后，判定行动价值函数Q是否收敛(S24)。在此，在基于S22的处理的行动价值函数Q的更新量成为预定值以下的连续次数达到预定次数的情况下判定为收敛即可。CPU112在判定为没有收敛的情况下(S24：否)、在S20的处理中判定为否的情况下，返回到S12的处理。与此相对，CPU112在判定为收敛的情况下(S24：是)，判定结束条件是否成立(S26)。在本实施方式中，结束条件包括在更新响应优先规定数据DR1时在S24的处理中判定为是的情况、和在更新能量效率优先规定数据DR2时在S24的处理中判定为是的情况双方。

CPU112在结束条件不成立的情况下(S26：否)，返回到S10的处理，变更优先系数VA。例如，CPU112在优先系数VA原本为“1”的情况下，将优先系数VA从“1”变更为“2”。另一方面，在结束条件成立的情况下(S26：是)，CPU112制作映射数据DM。即，CPU112基于响应优先规定数据DR1来制作响应优先映射数据DM1，基于能量效率优先规定数据DR2来制作能量效率优先映射数据DM2(S28)。像这样基于关系规定数据DR制作的映射数据DM通过将状态s与使期待收益最大化的行动变量的值一对一地建立关联，从而将状态s作为输入，并输出使期待收益最大化的行动变量的值。然后，CPU112将所制作的各映射数据DM存储于存储器116。当映射数据DM的存储完成时，CPU112结束图4所示的一系列的处理。

在本实施方式中，利用通过图4所示的一系列的处理的执行而实现的强化学习，从而制作的映射数据DM，即响应优先映射数据DM1和能量效率优先映射数据DM2存储于服务器130的存储器136。即，服务器130能够向能够与该服务器130进行通信的车辆VC1、VC2、…提供由生成装置110生成的映射数据DM。

在图6中示出控制装置70为了控制车辆VC1而执行的处理的步骤。图6所示的一系列的处理通过CPU72例如按预定周期反复执行存储于ROM74的控制程序74a来实现。

在图6所示的一系列的处理中，与图4的S12的处理同样，CPU72取得由加速器操作量PA的6个采样值“PA(1)、PA(2)、…PA(6)”构成的时序数据、当前的变速比GR以及车速V(S60)。然后，CPU72使用存储于存储器76的映射数据DM，对节气门开度指令值TA*和变速比指令值GR*进行映射运算(S62)。即，在将响应优先映射数据DM1作为映射数据DM存储于存储器76的情况下，CPU72使用响应优先映射数据DM1进行映射运算。另外，在将能量效率优先映射数据DM2作为映射数据DM存储于存储器76的情况下，CPU72使用能量效率优先映射数据DM2进行映射运算。在此，映射运算例如是如下的处理即可：在输入变量的值与映射数据DM的输入变量的值中的任一个一致的情况下，将对应的映射数据DM的输出变量的值作为运算结果，与此相对，在不一致的情况下，将对包含于映射数据DM的多个输出变量的值进行插值处理而得到的值作为运算结果。

然后，CPU72向节气门14输出操作信号MS1而操作节气门开度TA，并且向变速装置50输出操作信号MS5而操作变速比(S64)。在此，在本实施方式中，例示出将节气门开度TA反馈控制为节气门开度指令值TA*的情况，所以即使节气门开度指令值TA*为相同的值，操作信号MS1也可以成为彼此不同的信号。然后，CPU72在S64的处理完成的情况下，暂时结束图6所示的一系列的处理。

在本实施方式中，当起动内燃机10时，基于用户进行的加速器操作等车辆操作来执行用户的习惯、喜好的推定处理。此外，在内燃机10起动时存储于存储器76的映射数据DM例如是在车辆VC1的上次的行程的结束时间点存储于存储器76的映射数据DM。当通过执行推定处理而推定出此时驾驶车辆VC1的用户的习惯、喜好时，将其推定结果向服务器130发送。然后，当车辆VC1接收到与推定结果相应的映射数据DM时，将所接收到的映射数据DM存储于车辆VC1的控制装置70的存储器76。在图7中示出控制装置70为了实现这样的处理而执行的处理的步骤。图7所示的一系列的处理通过CPU72反复执行存储于ROM74的控制程序74a来实现。此外，在本实施方式中，在内燃机10工作且变速档为行驶档(D档)的状况下，在操作了加速器踏板86时执行该一系列的处理。

在图7所示的一系列的处理中，CPU72判定车辆VC1是否伴随加速器操作量PA的增加而进行加速(S70)。例如，CPU72在车辆VC1的加速度Gx为加速判定值GxTh以上时判定为车辆VC1正在进行加速，在车辆VC1的加速度Gx小于加速判定值GxTh时不判定为车辆VC1正在进行加速。在该情况下，加速判定值GxTh被设定为在没有由驾驶员操作加速器踏板86时无法达到的大小。在没有判定为车辆VC1正在进行加速的情况下(S70：否)，CPU72暂时结束图7所示的一系列的处理。然后，当本次用户对加速器踏板86的操作结束，下一次用户开始操作加速器踏板86时，开始执行图7所示的一系列的处理。

另一方面，在判定为车辆VC1正在进行加速的情况下(S70：是)，CPU72取得加速器操作量PA的时序数据(S72)。构成时序数据的各采样值是在彼此不同的定时采样到的值。在本实施方式中，由以一定的采样周期进行采样的情况下的、在时序上彼此相邻的6个采样值构成时序数据。此时，CPU72将从加速度Gx小于加速判定值GxTh的状态转变为加速度Gx为加速判定值GxTh以上的状态的时间点作为基准时间点，取得包含该基准时间点下的加速器操作量PA的时序数据。详细而言，CPU72以除了基准时间点下的加速器操作量PA以外，还包含基准时间点之前的时间点下的加速器操作量PA的方式取得加速器操作量PA的时序数据。由此，用于增大加速度Gx的加速器操作量PA的变化方式反映在加速器操作量PA的时序数据中。然后，当加速器操作量PA的时序数据的取得完成时，CPU72将样本数Smp增加“1”(S74)。然后，CPU72判定样本数Smp是否为样本数判定值SmpTh以上(S76)。作为样本数判定值SmpTh，预先设定“2”以上的值(例如为4)。在加速器操作量PA的时序数据的样本数Smp为样本数判定值SmpTh以上的情况下，能够判断为已经取得了对于推定用户的习惯、喜好而言足够的数量的样本数。在样本数Smp小于样本数判定值SmpTh的情况下，能够判断为对于推定用户的习惯、喜好而言样本数不足。因此，在样本数Smp小于样本数判定值SmpTh的情况下(S76：否)，CPU72暂时结束图7所示的一系列的处理。然后，当本次用户对加速器踏板86的操作结束，下一次用户开始操作加速器踏板86时，开始执行图7所示的一系列的处理。

另一方面，在样本数Smp为样本数判定值SmpTh以上的情况下(S76：是)，CPU72基于所取得的多个加速器操作量PA的时序数据来推定在当前时间点驾驶着车辆VC1的用户的习惯、喜好(S78)。例如，CPU72推定用户是使加速器响应的高低优先于车辆的能量效率的高低的用户，还是使车辆的能量效率的高低优先于加速器响应的高低的用户。在该情况下，基于所取得的加速器操作量PA的时序数据导出加速器操作量PA的增加速度，并基于该导出结果进行判别即可。具体而言，在能够判断为加速器操作量PA的增加速度高时，判断为用户是使加速器响应的高低优先于车辆的能量效率的高低的用户即可。在能够判断为加速器操作量PA的增加速度低时，判断为用户是使车辆的能量效率的高低优先于加速器响应的高低的用户即可。

接着，CPU72将基于S78的处理的推定结果经由通信机77向服务器130发送(S80)。然后，CPU72判定是否从服务器130接收到映射数据DM作为对推定结果的发送的答复(S82)。在映射数据DM的接收未完成的情况下(S82：否)，CPU72反复进行S82的处理直到接收完成为止。另一方面，在接收完成了的情况下(S82：是)，CPU72将存储于存储器76的映射数据DM置换为从服务器130接收到的映射数据DM(S84)。然后，CPU72将样本数Smp重置为“0”(S86)，并结束图7所示的一系列的处理。当像这样完成存储器76的映射数据DM的置换时，在本次的车辆的行程中不再执行图7所示的一系列的处理。

在图8中示出与车辆VC1进行通信的服务器130所执行的处理的流程。图8所示的一系列的处理通过CPU132反复执行存储于ROM134的控制程序134a来实现。

在图8所示的一系列的处理中，CPU132判定是否完成了正在驾驶车辆VC1的用户的习惯、喜好的推定结果，即在图7的S80的处理中所发送的数据的接收(S90)。在接收未完成的情况下(S90：否)，CPU132反复进行S90的处理直到接收完成为止。在接收完成了的情况下(S90：是)，CPU132从存储于存储器136的多个映射数据DM1、DM2中选择与用户的习惯、喜好相符的数据(S92)。即，在正在驾驶车辆VC1的用户是使加速器响应优先的用户的情况下，CPU132选择响应优先映射数据DM1。另外，在正在驾驶车辆VC1的用户是使车辆的能量利用效率优先的用户的情况下，CPU132选择能量效率优先映射数据DM2。然后，CPU132将所选择的映射数据DM经由通信机137向车辆VC1发送(S94)，暂时结束图8所示的一系列的处理。

对本实施方式的作用和效果进行说明。

在通过操作节气门14、变速装置50等车辆VC1的电子设备而使车辆VC1进行加速时，取得加速器操作量PA的时序数据。然后，基于所取得的加速器操作量PA的时序数据来推定此时正在驾驶车辆VC1的用户的习惯、喜好。当将这样的推定结果发送到服务器130时，在服务器130中，从存储于自身的存储器136的多个映射数据DM(DM1、DM2)中选择与该推定结果相符的映射数据DM并向车辆VC1发送。

在此，在加速器操作量PA的时序数据中反映出此时正在驾驶车辆VC1的用户的喜好、习惯。因此，可以说基于这样的车辆VC1的状态的时序数据选择的映射数据DM是与此时正在驾驶车辆VC1的用户的喜好、习惯相应的数据。

在车辆VC1的控制装置70中，从服务器130接收到的映射数据DM存储于存储器76。于是，之后使用新存储于存储器76的映射数据DM进行车辆控制。新存储于存储器76的映射数据DM是与此时正在驾驶车辆VC1的用户的喜好、习惯相应的合适的数据。因此，能够提供与此时正在驾驶车辆VC1的用户的喜好、习惯相应的合适的车辆控制。

因此，在本实施方式中，即使在多个用户利用车辆VC1的情况下，也能够提供与此时利用车辆VC1的用户的习惯、喜好相应的合适的车辆控制。

在本实施方式中，还可以获得以下所示的效果。

(1)多个映射数据DM存储于服务器130的存储器136，所以不需要在车辆VC1的控制装置70的存储器76中预先存储多个映射数据DM。因此，能够抑制车辆VC1的存储器76的存储容量的增大。

(2)在控制装置70的存储器76中存储映射数据DM而不是关系规定数据DR。由此，CPU72基于使用了映射数据DM的映射运算来设定节气门开度指令值TA*和变速比指令值GR*。结果，与使CPU72执行选择成为行动价值函数Q中的最大值的数据的处理的情况相比，能够减轻CPU72的运算负荷。

(第2实施方式)

以下，参照附图，以与第1实施方式的不同点为中心对第2实施方式进行说明。

如图9所示，在本实施方式中，在车辆VC1的控制装置70的存储器76中存储有关系规定数据DR和转矩输出映射数据DT来替代映射数据DM。另外，在ROM74中，除了控制程序74a以外，还存储有学习程序74b。学习程序74b与在上述第1实施方式中所说明的学习程序114a同样，用于通过强化学习对关系规定数据DR进行学习。

另外，由转矩输出映射数据DT规定的转矩输出映射是与将转速NE、充气效率η以及点火正时作为输入、并输出转矩Trq的神经网络等完成了学习的模型相关的数据。转矩输出映射数据DT例如是在执行图4的处理时，将通过S18的处理取得的转矩Trq作为教师数据进行学习而得到的数据即可。此外，充气效率η由CPU72基于转速NE和吸入空气量Ga来算出即可。

另外，在服务器130的存储器136中存储有响应优先规定数据DR1和能量效率优先规定数据DR2作为关系规定数据DR。存储于存储器136的响应优先规定数据DR1和能量效率优先规定数据DR2是通过图4和图5所示的一系列的处理导出的关系规定数据。具体而言，在优先系数VA的值是用于进行使提高加速器响应优先于提高车辆的能量利用效率的强化学习的值的状态下，在S24的处理中判定为是时的响应优先规定数据DR1存储于存储器136。另外，在优先系数VA的值是用于进行使提高车辆的能量利用效率优先于提高加速器响应的强化学习的值的状态下，在S24的处理中判定为是时的能量效率优先规定数据DR2存储于存储器136。

在图10中示出在操作车辆VC1的电子设备的同时更新存储于存储器76的关系规定数据DR时车辆VC1的控制装置70所执行的处理的步骤。图10所示的一系列的处理通过CPU72例如按预定周期反复执行存储于ROM74的控制程序74a和学习程序74b来实现。

在图10所示的一系列的处理中，CPU72取得加速器操作量PA的时序数据、当前的变速比GR、以及车速V作为状态s(S100)。然后，与图4的S14同样，CPU72设定由与通过S100的处理取得的状态s相应的节气门开度指令值TA*和变速比指令值GR*构成的行动a(S102)。接着，CPU72基于所设定的节气门开度指令值TA*和变速比指令值GR*，向节气门14输出操作信号MS1而操作节气门开度TA，并且向变速装置50输出操作信号MS5而操作变速比(S104)。然后，CPU72取得转速NE、变速比GR、内燃机10的转矩Trq、对内燃机10的转矩指令值Trq*以及加速度Gx(S106)。在此，CPU72通过将转速NE、充气效率η以及点火正时输入到转矩输出映射而算出转矩Trq。接着，与图4的S20同样，CPU72判定从进行了后述的S110的处理的定时起是否经过了预定期间(S108)。并且，CPU72在判定为经过了预定期间的情况下(S108：是)，通过强化学习来更新关系规定数据DR(S110)。另一方面，在未判定为经过了预定期间的情况下(S108：否)，CPU72暂时结束图10所示的一系列的处理。

此外，图10的S110的处理是与图5所示的一系列的处理同等的内容。因此，在此，省略图10的S110的处理的具体的说明。

在本实施方式中，在通过执行图10所示的一系列的处理而使车辆VC1行驶时，与图7的S78、S80的处理同样地，推定在该时间点驾驶车辆VC1的用户的习惯、喜好，并将其推定结果向服务器130发送。当服务器130接收到推定结果时，在服务器130中，与图8的S92同样，进行向车辆VC1发送的数据的选择，在本实施方式中，从存储于服务器130的存储器136的各关系规定数据DR中选择与用户的习惯、喜好相符的关系规定数据DR。当像这样选择出关系规定数据DR时，与图8的S94的处理同样，将所选择的数据向车辆VC1发送，在本实施方式中，将关系规定数据DR向车辆VC1发送。然后，在车辆VC1中，与图7的S84的处理同样，将从服务器130接收到的数据存储于存储器76，在本实施方式中，将从服务器130接收到的关系规定数据DR存储于存储器76。

在本实施方式中，在车辆VC1的控制装置70安装有关系规定数据DR和学习程序74b。因此，在车辆VC1从服务器130接收到与用户的习惯、喜好相符的关系规定数据DR后，在车辆VC1中进行基于强化学习的该关系规定数据DR的更新。结果，能够使车辆控制进一步接近与用户的习惯、喜好相应的控制。

(第3实施方式)

以下，参照附图，以与第1实施方式的不同点为中心对第3实施方式进行说明。

如图11所示，车辆VC1的控制装置70具备作为可电改写的非易失性存储器的存储器76和存储器76A。在存储器76中存储有在操作车辆VC1的电子设备时使用的映射数据DM。在存储器76A中存储有响应优先映射数据DM1和能量效率优先映射数据DM2作为映射数据DM。存储于存储器76A的映射数据DM是由图3所示的系统制作的数据。

并且，在本实施方式中，在通过执行图7所示的一系列的处理而使车辆VC1行驶时，推定在该时间点驾驶车辆VC1的用户的习惯、喜好。然后，由控制装置70的CPU72从存储于存储器76A的各映射数据DM中选择与用户的习惯、喜好相符的映射数据DM。并且，由CPU72将所选择的映射数据DM存储于存储器76。

在本实施方式中，在第1实施方式中存储于服务器130的存储器136的各映射数据DM被存储于车辆VC1的存储器76A。因此，不使车辆VC1与服务器130进行通信，便能够将与用户的习惯、喜好相符的映射数据存储于存储器76。

(例示的说明)

处理器的一例由图2的CPU72和ROM74构成。处理器的另一例由图9的CPU132和ROM134构成。处理器的另一例由图11的CPU72和ROM74构成。第1存储器的一例是图2、图9以及图11的存储器76。第2存储器的一例是图2和图9的存储器136。第2存储器的另一例是图11的存储器76A。存储于第1存储器的操作用数据的一例是存储于图2和图11的存储器76的映射数据DM。存储于第1存储器的操作用数据的另一例是存储于图9的存储器76的关系规定数据DR。存储于第2存储器的多个操作用数据的一例是存储于图2的存储器136的映射数据DM1、DM2。存储于第2存储器的多个操作用数据的另一例是存储于图9的存储器136的关系规定数据DR1、DR2。存储于第2存储器的多个操作用数据的另一例是存储于图11的存储器76A的映射数据DM1、DM2。更新映射的一例是由学习程序114a、74b中的执行图5的S46～S52的处理的指令规定的映射。控制用映射数据的一例是映射数据DM、DM1、DM2。关系规定数据的一例是关系规定数据DR、DR1、DR2。操作处理的一例是图6的S64、图10的S104。取得处理的一例是图6的S60、图7的S72、以及图10的S100、S106。数据变更处理的一例是图7的S78～S84、和图8的S90～S94。第1操作用数据的一例是图2和图11的响应优先映射数据DM1。第1操作用数据的另一例是图9的响应优先规定数据DR1。第2操作用数据的一例是图2和图11的能量效率优先映射数据DM2。第2操作用数据的另一例是图9的能量效率优先规定数据DR2。第1处理器的一例是图2和图9的CPU72和ROM74。第2处理器的一例是图2和图9的CPU132和ROM134。车辆用控制装置的一例是图2和图9的控制装置70。奖励算出处理的一例是图5的S36～S40的处理。更新处理的一例是图5的S46～S52的处理。更新映射的一例是由学习程序74b中的执行图5的S46～S52的处理的指令规定的映射。服务器的一例是图2和图9的服务器130。

(变更例)

上述各实施方式能够如以下那样进行变更而实施。上述各实施方式和以下的变更例能够在技术上不矛盾的范围内彼此进行组合而实施。

“关于操作用数据”

·在上述各实施方式中，例示出在第2存储器中存储2个操作用数据的情况。但是，只要将加速器响应的优先程度、能量利用效率的优先程度彼此不同的多个操作用数据存储于第2存储器，则存储于第2存储器的操作用数据的数量也可以是“3”以上的任意数量。

“关于维度削减”

作为维度削减的方法，例如由于加速器操作量PA很少成为最大值，所以对于加速器操作量PA成为规定量以上的状态不定义行动价值函数Q，加速器操作量PA成为规定量以上的情况下的节气门开度指令值TA*等也可以另行调整。另外，例如也可以从行动的可取的值中除去节气门开度指令值TA*成为规定值以上的值等来进行维度削减。

“关于关系规定数据”

·在上述各实施方式中，将行动价值函数Q设为表形式的函数，但并不限于此。例如，也可以使用函数近似器。

·例如，也可以不使用行动价值函数Q，而是作为替代，用将状态s和行动a作为自变量，将进行行动a的概率作为因变量的函数近似器来表示策略π，根据奖励r来更新确定函数近似器的参数。此外，在该情况下，也可以具备与优先系数VA的值相应的各自独立的函数近似器，另外，例如也可以在作为单个函数近似器的自变量的状态s中包含优先系数VA。

“关于操作处理”

·例如，在将行动价值函数设为函数近似器的情况下，通过将关于上述各实施方式中的成为表型函数的自变量的行动的离散的值的组的全部与状态s一起向行动价值函数Q输入，从而确定使行动价值函数Q最大化的行动a即可。在该情况下，例如，主要在操作中采用所确定的行动a，并且以预定的概率选择除此以外的行动即可。

·例如，在将策略π设为将状态s和行动a作为自变量，将采取行动a的概率作为因变量的函数近似器的情况下，基于由策略π表示的概率来选择行动a即可。

“关于更新映射”

·在S46～S52的处理中，例示出利用ε软同策略型蒙特卡罗法，但并不限于此。例如，也可以利用异策略(off-policy)型蒙特卡罗法。不过，也不限于蒙特卡罗法，例如，也可以使用异策略型TD法、另外例如也可以像SARSA法那样使用同策略型TD法、另外例如也可以使用资格迹(eligibility trace)法作为同策略型的学习。

·例如，在使用函数近似器来表示策略π，并基于奖励r直接更新策略π的情况下，使用策略梯度法等构成更新映射即可。

·不限于仅将行动价值函数Q和策略π中的任一方作为基于奖励r的直接的更新对象。例如，也可以像演员·评论家(actor-critic)算法那样，分别更新行动价值函数Q和策略π。另外，在演员·评论家(actor-critic)算法中，并不限于此，例如也可以将价值函数作为更新对象来替代行动价值函数Q。

“关于行动变量”

·在上述各实施方式中，作为与作为行动变量的节气门的开度相关的变量，例示出节气门开度指令值TA*，但并不限于此。例如，也可以用浪费时间和二阶延迟滤波器来表示节气门开度指令值TA*相对于加速器操作量PA的响应性，将浪费时间和规定二阶延迟滤波器的2个变量这合计3个变量作为与节气门的开度相关的变量。但是，在该情况下，优选，将状态变量设为加速器操作量PA的每单位时间的变化量来代替加速器操作量PA的时序数据。

·在上述各实施方式中，作为行动变量，例示出与节气门的开度相关的变量和与变速比相关的变量，但并不限于此。例如，也可以是，除了与节气门的开度相关的变量和与变速比相关的变量以外，还使用与点火正时相关的变量、与空燃比控制相关的变量。

·在压缩着火式的内燃机的情况下，使用与喷射量相关的变量来替代与节气门的开度相关的变量即可。另外，除此以外，例如也可以使用与喷射定时相关的变量、与1燃烧循环中的喷射次数相关的变量、与1燃烧循环中的用于一个气缸的在时序上相邻的2个燃料喷射中的一方的结束定时和另一方的开始定时之间的时间间隔相关的变量。

·例如在变速装置50为有级变速装置的情况下，也可以将用于通过液压来调整离合器的接合状态的电磁阀的电流值等作为行动变量。

·在与行动变量相应的操作的对象中包括旋转电机的情况下，在行动变量中包含旋转电机的转矩、电流即可。即，作为与推力生成装置的负荷相关的变量即负荷变量，不限于与节气门的开度相关的变量、喷射量，也可以是旋转电机的转矩、电流。

·在与行动变量相应的操作的对象中包括锁止离合器42的情况下，在行动变量中包含表示锁止离合器42的接合状态的变量即可。在此，在锁止离合器42的接合状态包含在行动变量中的情况下，根据提高能量利用效率的意思的要求事项的优先度的大小来改变行动变量的值这一做法尤其有效。

“关于用户的习惯、喜好的推定”

·在上述第1实施方式和第2实施方式中，也可以由服务器130执行推定用户的习惯、喜好的处理。在该情况下，将推定用户的习惯、喜好所需要的数据，即例如在图7的S72中取得的加速器操作量PA的时序数据向服务器130发送。

“关于车辆用控制数据的生成方法”

·在图4的S14的处理中，基于行动价值函数Q来决定行动，但不限于此，也可以等概率地选择可采取的所有行动。

“关于控制用映射数据”

·作为通过将车辆的状态与使期待收益最大化的行动变量的值一对一地建立关联而将车辆的状态作为输入并输出使期待收益最大化的行动变量的值的控制用映射数据，不限于映射数据(map data)。例如，也可以是函数近似器。这例如能够通过如下方法来实现：在使用策略梯度法等的情况下，用表示可以取行动变量的值的概率的高斯分布来表示策略π，用函数近似器来表示其平均值，更新表示平均值的函数近似器的参数，将学习后的平均值作为控制用映射数据。即，在此，将函数近似器输出的平均值视为使期待收益最大化的行动变量的值。此时，也可以对优先系数VA的每个值设置单独的函数近似器，但在单个函数近似器的自变量中的状态s中也可以包含优先系数VA。

“关于状态”

·在上述各实施方式中，将加速器操作量PA的时序数据设为由等间隔地进行采样而得到的6个值构成的数据，但并不限于此。只要是由彼此不同的采样定时下的2个以上的采样值构成的数据即可，此时，较优选的是，由3个以上的采样值构成的数据、采样间隔为等间隔的数据。

·作为与加速器操作量相关的状态变量，不限于加速器操作量PA的时序数据，例如，也可以是加速器操作量PA的每单位时间的变化量等。

·为了推定驾驶车辆VC1的用户的习惯、喜好而取得的车辆的状态也可以不是加速器操作量PA的时序数据。例如，也可以取得车辆VC1的加速度Gx作为车辆的状态。例如，在用户操作加速器踏板86的情况下，加速器操作量PA的变化速度越高则车辆的加速度Gx越容易变大。即，在用户操作加速器踏板86而使车辆加速的情况下，用户的习惯、喜好容易反映在加速度Gx上。即，在用户操作着加速器踏板86时的加速度Gx大的情况下，与加速度Gx小的情况相比，能够推定为对于加速器响应的优先度高的用户正在驾驶车辆VC1。

·也可以取得与加速器踏板86以外的其他车载操作构件的操作量相关的状态变量，并基于这些状态变量进行强化学习、推定驾驶车辆VC1的用户的习惯、喜好。作为加速器踏板86以外的其他车载操作构件，能够举出制动器踏板、方向盘等。

·例如，在将电磁阀的电流值作为行动变量的情况下，在状态中包含变速装置的输入轴52的转速、输出轴54的转速、由电磁阀调整的液压即可。另外，例如，在将旋转电机的转矩、输出作为行动变量的情况下，在状态中包含蓄电池的充电率、温度即可。另外，例如，在压缩机的负荷转矩、空调装置的消耗电力包含在行动中的情况下，在状态中包含车室内的温度即可。

“关于电子设备”

·作为成为与行动变量相应的操作对象的内燃机10的操作部，不限于节气门14。例如，也可以是点火装置26、燃料喷射阀16。

·作为成为与行动变量相应的操作对象的电子设备中的、推力生成装置与驱动轮之间的驱动系统装置，不限于变速装置50，例如也可以是锁止离合器42。

·在具备旋转电机作为推力生成装置的情况下，也可以将成为与行动变量相应的操作对象的电子设备设为连接于旋转电机的变换器等电力变换电路。不过，并不限于车载驱动系统的电子设备，例如也可以是车载空气调节装置等。即使在该情况下，例如在车载空气调节装置由推力生成装置的旋转动力驱动的情况下，由于推力生成装置的动力中的向驱动轮60供给的动力取决于车载空气调节装置的负荷转矩，所以将车载空气调节装置的负荷转矩包含在行动变量中等做法也是有效的。另外，例如即使车载空气调节装置不利用推力生成装置的旋转动力，也会影响到能量利用效率，所以在行动变量中添加车载空气调节装置的消耗电力的做法是有效的。

“关于处理器”

·作为处理器，并不限于具备CPU和ROM并执行软件处理的处理器。例如也可以具备对在上述各实施方式中进行软件处理的处理中的至少一部分进行硬件处理的、例如ASIC等专用的硬件电路。即，处理器是以下的(a)～(c)中的任一构成即可。(a)具备根据程序来执行上述处理中的全部的处理装置、和存储程序的ROM等程序存储装置。(b)具备根据程序来执行上述处理中的一部分的处理装置及程序存储装置、和执行剩余的处理的专用的硬件电路。(c)具备执行上述处理中的全部的专用的硬件电路。在此，具备处理装置和程序存储装置的软件处理器、专用的硬件电路也可以是多个。

“关于内燃机”

·作为内燃机，不限于具备向进气通路12喷射燃料的端口喷射阀作为燃料喷射阀的内燃机，也可以是具备直接向燃烧室24喷射燃料的缸内喷射阀的内燃机，另外，例如也可以是具备端口喷射阀和缸内喷射阀双方的内燃机。

·作为内燃机，不限于火花点火式内燃机，例如也可以是使用轻油等作为燃料的压缩着火式内燃机等。

“关于车辆”

·车辆也可以并非仅具备内燃机作为车辆的推力生成装置，例如也可以是具备内燃机和旋转电机双方的混合动力车辆。另外，例如，车辆也可以是像电动汽车、燃料电池车那样推力生成装置仅为旋转电机的车辆。

Claims

1.一种控制车辆的方法，其特征在于，

包括：使用存储于第1存储器的操作用数据来操作所述车辆的电子设备；取得基于设置于所述车辆的传感器的检测值的所述车辆的状态；以及基于所取得的所述车辆的状态，从存储于第2存储器的所述操作用数据中选择一个数据，并将所选择的所述操作用数据存储于所述第1存储器，

2.根据权利要求1所述的方法，其特征在于，

在存储于所述第2存储器的所述各操作用数据中，

第1操作用数据是将与加速器响应相关的参数为与加速器响应相关的阈值以上这一情况设为所述预定的基准进行更新而得到的数据，

第2操作用数据是将与所述车辆的能量利用效率相关的参数为与能量利用效率相关的阈值以上这一情况设为所述预定的基准进行更新而得到的数据。

3.根据权利要求1或2所述的方法，其特征在于，

在所述车辆的状态中包括加速器操作量的变化速度。

4.根据权利要求1或2所述的方法，其特征在于，

在所述车辆的状态中包括所述车辆的加速度。

5.根据权利要求1～4中任一项所述的方法，其特征在于，

所述车辆的电子设备的操作由设置于所述车辆的第1处理器使用存储于在所述车辆设置的第1存储器的操作用数据来执行，

基于设置于所述车辆的传感器的检测值的所述车辆的状态的取得由所述第1处理器来执行，

所述第2存储器设置于所述车辆的外部，

由设置于所述车辆的外部的第2处理器从存储于所述第2存储器的所述各操作用数据中选择一个数据，

所选择的所述操作用数据由所述第2处理器向所述车辆发送，

使所述车辆接收从所述第2处理器发送的所述操作用数据的处理由所述第1处理器来执行，

将接收到的所述操作用数据存储于所述第1存储器的处理由所述第1处理器来执行。

6.一种用于车辆的控制装置，其特征在于，

具备第1存储器和第1处理器，

所述第1存储器设置于所述车辆，存储用于操作所述车辆的电子设备的操作用数据，

所述第1处理器设置于车辆，并且构成为，使用存储于所述第1存储器的操作用数据来操作所述车辆的电子设备，取得基于设置于所述车辆的传感器的检测值的所述车辆的状态，使所述车辆接收基于所取得的所述车辆的状态而选择的、存储于在车辆的外部设置的第2存储器的所述操作用数据，将接收到的所述操作用数据存储于所述第1存储器。

7.根据权利要求6所述的控制装置，其特征在于，

从存储于所述第2存储器的多个操作用数据中选择并存储于所述第1存储器的所述操作用数据是所述关系规定数据，

所述第1处理器构成为，通过执行奖励算出处理和更新处理来更新存储于所述第1存储器的所述关系规定数据，并且基于通过所取得的所述车辆的状态和存储于所述第1存储器的所述关系规定数据确定的所述行动变量的值来操作所述电子设备，

所述奖励算出处理是以基于通过所述车辆的状态和所述关系规定数据确定的所述行动变量的值操作了所述电子设备时的所述车辆的状态为根据，在所述车辆的特性满足预定的基准的情况下，给予比所述车辆的特性不满足所述预定的基准的情况下大的奖励的处理，

所述更新处理是将操作了所述电子设备时的所述车辆的状态、在所述电子设备的操作中使用的所述行动变量的值、以及与该操作对应的所述奖励设为向预先设定的更新映射的输入，对所述关系规定数据进行更新的处理，

所述更新映射输出以使得关于根据所述关系规定数据操作所述电子设备的情况下的所述奖励的期待收益增加的方式进行更新而得到的所述关系规定数据。

8.一种服务器，其特征在于，

具备存储器和处理器，

所述存储器存储有用于操作车辆的电子设备的多个操作用数据，

所述处理器从所述多个操作用数据中选择一个数据并向车辆发送。