CN113266481A

CN113266481A - 车辆控制方法、车辆用控制装置以及服务器

Info

Publication number: CN113266481A
Application number: CN202110105324.1A
Authority: CN
Inventors: 桥本洋介; 片山章弘; 大城裕太; 杉江和纪; 冈尚哉
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-01-29
Filing date: 2021-01-26
Publication date: 2021-08-17
Also published as: US20210229688A1; JP2021116781A

Abstract

一种车辆控制方法、车辆用控制装置以及服务器，所述车辆控制方法适用于具备车辆用控制装置和与车辆用控制装置进行通信的服务器的系统。车辆控制方法包括：执行取得车辆的状态的状态取得处理；执行基于车辆的状态和操作用数据对电子设备进行操作的操作处理；执行取得环境信息的环境信息取得处理；执行对环境信息表示的行驶环境是否发生了变化进行判定的环境判定处理；以及执行数据变更处理，所述数据变更处理是在环境判定处理中判定为行驶环境发生了变化时，使车辆用控制装置从服务器取得与环境信息相应的操作用数据，使该操作用数据存储于第1存储装置的处理。

Description

车辆控制方法、车辆用控制装置以及服务器

技术领域

本公开涉及车辆控制方法、车辆用控制装置以及服务器。

背景技术

在日本特开2016-6327号公报记载了基于通过滤波器对加速器踏板的操作量进行处理而得到的值，操作作为搭载于车辆的内燃机的操作部的节气门的控制装置的一例。

上述滤波器需要根据加速器踏板的操作量将搭载于车辆的内燃机的节气门的操作量设定为合适的操作量。因此，滤波器的适配需要本领域技术人员花费大量的工时。这样，以往对于与车辆的状态相应的车辆内的电子设备的操作量等的适配，本领域技术人员花费了大量的工时。

发明内容

以下，对本公开的多个技术方案及其作用效果进行记载。

技术方案1.根据本公开的一技术方案，提供一种适用于具备设置于车辆的车辆用控制装置、和与所述车辆用控制装置进行通信的服务器的系统的车辆控制方法。存储在操作所述车辆的电子设备时使用的操作用数据的第1存储装置设置于所述车辆用控制装置，所述车辆控制方法包括：处理电路(processing circuitry)执行状态取得处理，所述状态取得处理是取得基于设置于所述车辆的传感器的检测值的所述车辆的状态的处理；所述处理电路执行操作处理，所述操作处理是基于在所述状态取得处理中取得的所述车辆的状态、和存储于所述第1存储装置的所述操作用数据，对所述电子设备进行操作的处理；所述处理电路执行环境信息取得处理，所述环境信息取得处理是取得与所述车辆行驶的环境即行驶环境相关的信息即环境信息的处理；所述处理电路执行环境判定处理，所述环境判定处理是对在所述环境信息取得处理中取得的所述环境信息表示的所述行驶环境是否发生了变化进行判定的处理；以及所述处理电路执行数据变更处理，所述数据变更处理是在所述环境判定处理中判定为所述行驶环境发生了变化时，使所述车辆用控制装置从所述服务器取得与所述环境信息相应的所述操作用数据，并使该操作用数据存储于所述第1存储装置的处理。

根据上述构成，当判定为车辆的环境信息表示的行驶环境发生了变化时，在车辆用控制装置中，从服务器取得与该环境信息相应的操作用数据，将该操作用数据存储于第1存储装置。之后，基于新存储于第1存储装置的操作用数据对车辆的电子设备进行操作。即，根据上述构成，能够通过将与此时的车辆的行驶环境相应的操作用数据向车辆提供，从而执行与该行驶环境相应的车辆控制。

技术方案2.在技术方案1记载的车辆控制方法中，

所述环境信息可以包括与所述车辆行驶的区域相关的信息，所述环境判定处理可以包括在所述环境信息表示的所述车辆行驶的区域发生了变化时，判定为所述行驶环境发生了变化的处理。

根据上述构成，当判定为车辆行驶的区域发生了变化时，从服务器向车辆用控制装置提供与车辆行驶的新的区域相应的操作用数据。结果，能够执行对应于与此时的行驶区域相应的操作用数据的车辆控制。

技术方案3.在技术方案1或2记载的车辆控制方法中，所述环境信息可以包括与当前的季节相关的信息，所述环境判定处理可以包括在所述环境信息表示的季节发生了变化时，判定为所述行驶环境发生了变化的处理。

根据上述构成，当判定为季节发生了变化时，从服务器向车辆用控制装置提供与新的季节相应的操作用数据。结果，能够执行对应于与此时的季节相应的操作用数据的车辆控制。

技术方案4.在技术方案1～3中任一项记载的车辆控制方法中，

所述操作用数据可以包括规定所述车辆的状态与行动变量的关系的关系规定数据，所述行动变量是与所述电子设备的操作相关的变量，

所述关系规定数据可以是通过执行如下处理而得到的数据，所述处理包括：根据基于通过所述车辆的状态和所述关系规定数据确定的所述行动变量的值操作了所述电子设备时的所述车辆的状态给予奖励，且在所述车辆的特性满足预定的基准的情况下给予的所述奖励比所述车辆的特性不满足所述预定的基准的情况下给予的所述奖励大的处理；和将操作了所述电子设备时的所述车辆的状态、在所述电子设备的操作中使用的所述行动变量的值、以及与该操作对应的所述奖励用作向预先设定的更新映射的输入，对所述关系规定数据进行更新的处理，

所述更新映射可以输出以使得关于根据所述关系规定数据操作所述电子设备的情况下的所述奖励的期待收益增加的方式进行更新而得到的所述关系规定数据。

在上述构成中，通过算出伴随于电子设备的操作的奖励，能够掌握通过该操作能得到什么样的奖励。而且，基于得到的奖励，通过按照强化学习的更新映射来更新关系规定数据，由此能够将车辆的状态与行动变量的关系设定为在车辆的行驶中合适的关系。因此，能够使车辆的状态与行动变量的关系在车辆的行驶中合适化。即，通过更新关系规定数据，能够实现车辆控制的合适化。

技术方案5.在技术方案1～3中任一项记载的车辆控制方法中，

所述操作用数据可以包括根据关系规定数据制作的控制用映射数据，所述关系规定数据是规定所述车辆的状态和与所述电子设备的操作相关的变量即行动变量的关系的数据，

根据上述构成，从服务器向车辆用控制装置提供与此时的环境信息相应的控制用映射数据。于是，将该控制用映射数据存储于第1存储装置，基于该控制用映射数据来操作车辆的电子设备。由此，能够在车辆中执行与此时的行驶环境相应的合适的车辆控制。

技术方案6.在技术方案1～5中任一项记载的车辆控制方法中，

所述服务器可以具备第2存储装置，所述第2存储装置存储与设想的多个所述环境信息分别对应的多个所述操作用数据，所述数据变更处理可以包括数据选择处理、发送处理以及数据存储处理，所述数据选择处理是从存储于所述第2存储装置的多个所述操作用数据中选择与在所述环境信息取得处理中取得的所述环境信息相应的数据的处理，所述发送处理是将在所述数据选择处理中选择的所述操作用数据向所述车辆用控制装置发送的处理，所述数据存储处理是使在所述发送处理中从所述服务器发送的所述操作用数据存储于所述第1存储装置的处理。

根据上述构成，从存储于服务器的第2存储装置的多个操作用数据中，选择与环境信息相应的数据，将该操作用数据从服务器向车辆用控制装置发送。

技术方案7.在技术方案4记载的车辆控制方法中，

所述车辆可以是能够与所述服务器进行通信的多个车辆中的第1车辆，所述数据变更处理可以包括车辆搜索处理、变更用数据取得处理、发送处理以及数据存储处理，所述车辆搜索处理是在所述第1车辆的所述环境信息表示的所述行驶环境发生了变化时，对在与变更后的所述第1车辆的所述行驶环境相同的所述行驶环境行驶的第2车辆进行搜索的处理，所述变更用数据取得处理是使所述服务器从在所述车辆搜索处理中搜索到的所述第2车辆取得该第2车辆的所述关系规定数据的处理，所述发送处理是将在所述变更用数据取得处理中使所述服务器取得的所述第2车辆的所述关系规定数据向所述第1车辆发送的处理，所述数据存储处理是使在所述发送处理中从所述服务器向所述第1车辆发送的所述第2车辆的所述操作用数据存储于所述第1车辆的所述第1存储装置的处理。

根据上述构成，当判定为第1车辆的行驶环境发生了变化时，对在与第1车辆相同的行驶环境行驶的第2车辆进行搜索。而且，将搜索到的第2车辆的操作用数据经由服务器向第1车辆提供。由此，能够在第1车辆中执行与此时的行驶环境相应的车辆控制。

技术方案8.在技术方案1～7中任一项记载的车辆控制方法中，所述处理电路可以具备设置于所述车辆的第1执行装置、和设置于所述服务器的第2执行装置，所述车辆控制方法包括：由所述第1执行装置执行所述状态取得处理和所述操作处理；由所述第1执行装置或所述第2执行装置执行所述环境信息取得处理；以及由所述第1执行装置和所述第2执行装置协作地执行所述数据变更处理。

技术方案9.根据本公开的一技术方案，提供一种具备技术方案8记载的所述第1执行装置和所述第1存储装置的车辆用控制装置。

技术方案10.根据本公开的一技术方案，提供一种具备技术方案8记载的所述第2执行装置的服务器。

附图说明

图1是示出第1实施方式的控制装置和驱动系统的图。

图2是示意地示出该控制装置的构成、和与车辆进行通信的服务器的构成的框图。

图3是示出第1实施方式的生成映射数据的系统的图。

图4是示出第1实施方式的系统执行的处理的步骤的流程图。

图5是示出第1实施方式的学习处理的详情的流程图。

图6是示出在操作车辆的电子设备时控制装置执行的处理的步骤的流程图。

图7是示出在改写存储于控制装置的存储装置的映射数据时控制装置执行的处理的步骤的流程图。

图8是示出在将与车辆的行驶环境相应的映射数据向车辆提供时服务器执行的处理的步骤的流程图。

图9是示意地示出第2实施方式的控制装置的构成、和服务器的构成的框图。

图10是示出在操作车辆的电子设备时控制装置执行的处理的步骤的流程图。

图11是示意地示出第3实施方式的控制装置的构成、和服务器的构成的框图。

图12是示出在将与车辆的行驶环境相应的映射数据向车辆提供时服务器执行的处理的步骤的流程图。

具体实施方式

(第1实施方式)

以下，参照附图对车辆控制方法、车辆用控制装置以及服务器的第1实施方式进行说明。

在图1中图示出作为车辆用控制装置的控制装置70、和具备控制装置70的车辆VC1的驱动系统的构成。

如图1所示，车辆VC1具备内燃机10作为车辆VC1的推力生成装置。在内燃机10的进气通路12，从上游侧起依次设置有节气门14和燃料喷射阀16，被吸入到进气通路12的空气和从燃料喷射阀16喷射的燃料伴随于进气门18的打开，流入由气缸20和活塞22划分出的燃烧室24。在燃烧室24内，燃料与空气的混合气伴随于点火装置26的火花放电而被用于燃烧，通过燃烧产生的能量经由活塞22变换为曲轴28的旋转能量。用于了燃烧的混合气伴随于排气门30的打开，作为排气被排出到排气通路32。在排气通路32设置有作为对排气进行净化的后处理装置的催化剂34。

在曲轴28能够经由具备锁止离合器42的变矩器40机械地连结变速装置50的输入轴52。变速装置50是使输入轴52的转速与输出轴54的转速之比即变速比可变的装置。在输出轴54机械地连结有驱动轮60。

控制装置70将内燃机10作为控制对象，为了控制作为其控制量的转矩、排气成分比率等，对节气门14、燃料喷射阀16以及点火装置26等内燃机10的操作部进行操作。另外，控制装置70将变矩器40作为控制对象，为了控制锁止离合器42的接合状态而对锁止离合器42进行操作。另外，控制装置70将变速装置50作为控制对象，为了控制作为其控制量的变速比而对变速装置50进行操作。此外，在图1中记载了节气门14、燃料喷射阀16、点火装置26、锁止离合器42、以及变速装置50各自的操作信号MS1～MS5。像这样被输入来自控制装置70的操作信号MS1～MS5的各操作部为“电子设备”的一例。

控制装置70为了控制控制量，参照由空气流量计80检测的吸入空气量Ga、由节气门传感器82检测的节气门14的开度即节气门开度TA、以及曲轴角传感器84的输出信号Scr。另外，控制装置70参照由加速器传感器88检测的加速器踏板86的踩踏量即加速器操作量PA、以及由加速度传感器90检测的车辆VC1的前后方向的加速度Gx。另外，控制装置70参照基于全球定位系统(GPS92)的位置数据Pgps、由变速位置传感器94检测的变速比GR、以及由车速传感器96检测的车速V。

控制装置70具备CPU72、ROM74、作为可电改写的非易失性存储器的存储装置76、通信机77以及周边电路78，它们能够经由本地网络79进行通信。在此，周边电路78包括生成规定内部的动作的时钟信号的电路、电源电路以及复位电路等。

在ROM74存储有控制程序74a。另一方面，在存储装置76存储有将节气门开度TA的指令值即节气门开度指令值TA*和变速比GR的指令值即变速比指令值GR*作为输出变量的映射数据DM、和地图数据DG。映射数据DM是用于将当前的变速比GR、车速V以及加速器操作量PA的时序数据作为输入变量、将节气门开度指令值TA*和变速比指令值GR*作为输出变量的映射。

如图2所示，通信机77是用于经由车辆VC1的外部的网络120与设置于车外的服务器130进行通信的设备。

服务器130对从多个车辆VC1、VC2、…发送来的数据进行解析。服务器130具备CPU132、ROM134、作为可电改写的非易失性存储器的存储装置136、周边电路138以及通信机137，它们能够通过本地网络139进行通信。在ROM134存储有控制程序134a，在存储装置136存储有映射数据DM。在本实施方式中，在存储装置136存储有映射数据DM11、DM12、DM21、……作为映射数据DM。

即，作为映射数据DM，准备了与多个区域分别对应的多个映射数据。例如，映射数据DM11、DM12是通过设想车辆在第1区域AR1行驶的情况的强化学习而得到的映射数据。映射数据DM21是通过设想车辆在与第1区域AR1不同的第2区域AR2行驶的情况的强化学习而得到的映射数据。虽然省略了图示，但也可以准备通过设想车辆在与区域AR1、AR2不同的第3区域行驶的情况的强化学习而得到的映射数据。

例如，在将在第1区域AR1从供油设施向车辆供给的燃料的性状(性质状态)设为第1性状的情况下，第2区域AR2是向车辆供给与第1性状不同的第2性状的燃料的区域。即，本实施方式中的区域是根据从供油设施向车辆供给的燃料的性状的不同来区分的区域。

另外，在本实施方式中，准备了每个季节的映射数据。例如，第1区域AR1用的映射数据DM11、DM12中的映射数据DM11是通过设想在冬季以外的季节车辆在第1区域AR1行驶的情况的强化学习而得到的映射数据。另一方面，映射数据DM12是通过设想在冬季车辆在第1区域AR1行驶的情况的强化学习而得到的映射数据。第2区域AR2用的多个映射数据中的映射数据DM12是通过设想在冬季以外的季节车辆在第2区域AR2行驶的情况的强化学习而得到的映射数据。另外，虽然省略了图示，但也可以准备通过设想在冬季车辆在第2区域AR2行驶的情况的强化学习而得到的映射数据作为第2区域AR2用的映射数据。

在各区域AR1、AR2，从供油设施向车辆供给的燃料的性状根据季节而变更。例如，在如冬季那样气温低的情况和如冬季以外的季节那样气温不那么低的情况下，从供油设施向车辆供给的燃料的挥发性不同。

图3示出生成上述映射数据DM的系统。

在图3所示的系统中，在内燃机10的曲轴28经由变矩器40和变速装置50机械地连结有测功机(dynamometer)100。并且，使内燃机10工作时的各种状态变量由传感器组102检测，检测结果向作为生成映射数据DM的计算机的生成装置110输入。此外，传感器组102包括搭载于图1所示的车辆VC1的传感器等。

生成装置110具备CPU112、ROM114、作为可电改写的非易失性存储器的存储装置116以及周边电路118，它们能够通过本地网络119进行通信。在存储装置116存储有映射数据DM。在本实施方式中，在存储装置116存储有多个映射数据DM11、DM12、DM21、……作为映射数据DM。在ROM114存储有通过强化学习对后述的关系规定数据DR进行学习的学习程序114a。

图4示出生成装置110执行的处理的步骤。图4所示的一系列的处理通过CPU112执行存储于ROM114的学习程序114a来实现。此外，以下，通过在开头赋予了“S”的数字来表示各处理的步骤编号。

在图4所示的一系列的处理中，CPU112对环境系数VA的值进行设定(S10)。环境系数VA是用于决定进行后述的各关系规定数据DR11、DR12、DR21、……中的哪一个关系规定数据的学习的系数。即，通过改变环境系数VA，能够变更进行学习的关系规定数据DR。例如，在环境系数VA为“11”时，对在第1区域AR1用的映射数据中的、冬季以外的季节用的映射数据DM11的制作中使用的关系规定数据DR11进行学习。另外，例如，在环境系数VA为“12”时，对在第1区域AR1用的映射数据中的、冬季用的映射数据DM12的制作中使用的关系规定数据DR12进行学习。另外，例如，在环境系数VA为“21”时，对在第2区域AR2用的映射数据中的、冬季以外的季节用的映射数据DM21的制作中使用的关系规定数据DR21进行学习。另外，例如，在环境系数VA为“22”时，对在第2区域AR2用的映射数据中的、冬季用的映射数据的制作中使用的关系规定数据进行学习。另外，例如，在环境系数VA为“31”时，对在第3区域用的映射数据中的、冬季以外的季节用的映射数据的制作中使用的关系规定数据进行学习。

在此，关系规定数据DR是对作为状态变量的加速器操作量PA的时序数据、车速V及变速比GR、与作为行动变量的节气门开度指令值TA*及变速比指令值GR*的关系进行规定的数据。关系规定数据DR是通过强化学习导出的数据。关系规定数据DR中的关系规定数据DR11是通过进行设想在冬季以外的季节在第1区域AR1进行行驶的情况的强化学习而导出的关系规定数据。另外，关系规定数据DR12是通过进行设想在冬季在第1区域AR1进行行驶的情况的强化学习而导出的关系规定数据。另外，关系规定数据DR21是通过进行设想在冬季以外的季节在第2区域AR2进行行驶的情况的强化学习而导出的关系规定数据。

在本实施方式中，通过使内燃机10实际工作来取得状态s，基于所取得的状态s进行关系规定数据DR的更新。在像这样使内燃机10工作的情况下，向内燃机10供给与更新的关系规定数据DR对应的燃料。例如，在环境系数VA为“11”的情况下，使用与在第1区域AR1在冬季以外的季节从供油设施向车辆供给的燃料的性状相同的性状的燃料使内燃机10工作。另外，例如，在环境系数VA从“11”变更为“12”的情况下，在变更了向内燃机10供给的燃料之后，即在向内燃机10供给了与在第1区域AR1在冬季从供油设施向车辆供给的燃料的性状相同的性状的燃料之后，使内燃机10工作。

CPU112在使内燃机10工作的状态下，取得包括加速器操作量PA的6个采样值“PA(1)、PA(2)、……、PA(6)”的时序数据、当前的变速比GR、车速V作为状态s(S12)。在此，构成时序数据的各采样值是在彼此不同的定时采样到的采样值。在本实施方式中，由以一定的采样周期进行采样的情况下的在时序上彼此相邻的6个采样值构成时序数据。不过，在图3所示的系统中，不存在加速器踏板86。因此，将加速器操作量PA设为生成装置110通过对车辆VC1的状态进行模拟而近似地生成的加速器操作量，并将近似地生成的加速器操作量PA视为基于传感器的检测值的车辆的状态。另外，车速V作为假定实际上存在车辆的情况下的车辆的行驶速度而由CPU112算出，在本实施方式中，将该车速V视为基于传感器的检测值的车辆的状态。详细而言，CPU112基于曲轴角传感器84的输出信号Scr算出曲轴28的转速NE，基于转速NE和变速比GR算出车速V。

接着，CPU112根据由上述各关系规定数据DR11、DR12、DR21、……中的与通过S10的处理设定的环境系数VA的值对应的数据所确定的策略π，设定由与通过S12的处理取得的状态s对应的节气门开度指令值TA*和变速比指令值GR*构成的行动a(S14)。

在本实施方式中，关系规定数据DR是确定行动价值函数Q和策略π的数据。在本实施方式中，行动价值函数Q是表示与状态s和行动a的10维自变量相应的期待收益的值的表(table)型函数。另外，策略π设定以下那样的规则：在给予状态s时，优先选择成为自变量为所给予的状态s的行动价值函数Q中的最大行动价值的行动a(贪婪(greedy)行动)，并以预定的概率选择除此以外的行动a。

详细而言，关于本实施方式的行动价值函数Q的自变量可取的值的数量，该数量是状态s及行动a的可取的值的全部组合的一部分根据人的知识等而被削减后的数量。即，设为例如在加速器操作量PA的时序数据中的相邻的两个采样值中的一个成为加速器操作量PA的最小值而另一个成为最大值这样的情况不会因为人进行的加速器踏板86的操作而发生，从而不定义行动价值函数Q。另外，为了避免变速比GR从2档急剧地变化为4档，例如在当前的变速比GR为2档的情况下，将作为能够采取的行动a的变速比指令值GR*限制为1档、2档以及3档。即，在作为状态s的变速比GR为2档的情况下，不定义4档以上的行动a。在本实施方式中，通过基于人的知识等来削减维度，将定义行动价值函数Q的自变量的可取的值限制为10的5次方个以下、更优选限制为10的4次方个以下。

接着，CPU112基于所设定的节气门开度指令值TA*和变速比指令值GR*，向节气门14输出操作信号MS1而对节气门开度TA进行操作，并且向变速装置50输出操作信号MS5而对变速比进行操作(S16)。接着，CPU112取得转速NE、变速比GR、内燃机10的转矩Trq、对内燃机10的转矩指令值Trq*以及加速度Gx(S18)。在此，CPU112基于测功机100生成的负荷转矩和变速装置50的变速比算出转矩Trq。另外，转矩指令值Trq*根据加速器操作量PA和变速比GR来设定。此外，在此，变速比指令值GR*为强化学习的行动变量，所以变速比指令值GR*不限于是将转矩指令值Trq*设定为能够由内燃机10实现的最大转矩以下的值。因此，转矩指令值Trq*不限于是能够由内燃机10实现的最大转矩以下的值。另外，CPU112基于测功机100的负荷转矩等，将加速度Gx算出为假设在内燃机10等搭载于车辆的情况下设想在车辆中产生的值。即，在本实施方式中，加速度Gx也是假想的值，但也将该加速度Gx视为基于传感器的检测值的车辆的状态。

接着，CPU72判定从进行了S10的处理的定时和进行了后述的S22的处理的定时中的任一较晚的一方起是否经过了预定期间(S20)。并且，CPU112在判定为经过了预定期间的情况下(S20：是)，通过强化学习对关系规定数据DR进行更新(S22)。

图5示出S22的处理的详情。

在图5所示的一系列的处理中，CPU112取得由预定期间内的转速NE、转矩指令值Trq*、转矩Trq以及加速度Gx的4个采样值的组构成的时序数据、和状态s及行动a的时序数据(S30)。在图5中，括号中的数字不同的值表示不同的采样定时下的变量的值。例如，转矩指令值Trq*(1)与转矩指令值Trq*(2)的采样定时彼此不同。另外，将预定期间内的行动a的时序数据定义为行动集合Aj，将预定期间内的状态s的时序数据定义为状态集合Sj。

接着，CPU112判定预定期间内的任意的转矩Trq与转矩指令值Trq*之差的绝对值为规定量ΔTrq以下的条件(A)、和加速度Gx为下限值GxL以上且为上限值GxH以下的条件(B)的逻辑乘是否为真(S36)。

在此，CPU112根据情节(episode)开始时的加速器操作量PA的每单位时间的变化量ΔPA和环境系数VA的值，可变地设定规定量ΔTrq。即，在变化量ΔPA的绝对值大的情况下设为是与过渡时有关的情节，CPU112将规定量ΔTrq设定为比稳定时的情况大的值。

另外，CPU112根据情节开始时的加速器操作量PA的变化量ΔPA，可变地设定下限值GxL。即，在处于与过渡时相关的情节且变化量ΔPA为正的情况下，相比于与稳定时相关的情节的情况，CPU112将下限值GxL设定为大的值。另外，在处于与过渡时相关的情节且变化量ΔPA为负的情况下，相比于与稳定时相关的情节的情况，CPU112将下限值GxL设定为小的值。

另外，CPU72根据情节开始时的加速器操作量PA的每单位时间的变化量ΔPA，可变地设定上限值GxH。即，在处于与过渡时相关的情节且变化量ΔPA为正的情况下，相比于与稳定时相关的情节的情况，CPU72将上限值GxH设定为大的值。另外，在处于与过渡时相关的情节且变化量ΔPA为负的情况下，相比于与稳定时相关的情节的情况，CPU72将上限值GxH设定为小的值。

另外，CPU112根据环境系数VA的值，可变地设定下限值GxL和上限值GxH。例如，设为第1区域AR1是比第2区域AR2要求高燃料经济性的区域。越难以产生加速度Gx的急剧变化，则车辆的燃料经济性越容易变高。因此，例如，CPU112在更新第1区域AR1用的关系规定数据DR11、DR12时，以使得下限值GxL与上限值GxH的差量比更新第2区域AR2用的关系规定数据DR21时小的方式，设定下限值GxL和上限值GxH。

CPU72在判定为逻辑乘为真的情况下(S36：是)，将正的值α设定为奖励r(S38)，另一方面，在判定为假的情况下(S36：否)，将负的值β设定为奖励r(S40)。S36～S40的处理是在满足预定的基准的情况下与不满足预定的基准的情况相比给予大的奖励的处理。另外，在本实施方式中，根据环境系数VA的值变更预定的基准。

CPU112在S38、S40的处理完成的情况下，对关系规定数据DR进行更新。在本实施方式中，使用ε软同策略型蒙特卡罗法(ε-soft on-policy Monte Carlo method)。

即，CPU112对由通过上述S30的处理读出的各状态与所对应的行动的组确定的收益R(Sj，Aj)分别加上奖励r(S46)。在此，“R(Sj，Aj)”是对将状态集合Sj的要素之一作为状态、将行动集合Aj的要素之一作为行动的收益R的总括性的记载。接着，CPU112对由通过上述S30的处理读出的各状态与所对应的行动的组确定的收益R(Sj，Aj)分别进行平均化并代入所对应的行动价值函数Q(Sj，Aj)(S48)。在此，平均化只要是将通过S48的处理算出的收益R除以进行了S48的处理的次数的处理即可。此外，收益R的初始值被设为零即可。

接着，CPU112对于通过上述S30的处理读出的状态，分别将成为对应的行动价值函数Q(Sj，A)中的最大值时的节气门开度指令值TA*和变速比指令值GR*的组的行动代入行动Aj*(S50)。在此，“A”表示能够采取的任意的行动。此外，行动Aj*根据通过上述S30的处理读出的状态的种类而成为各自独立的值，但在此为了简化标记而用同一记号来记载。

此外，CPU112在S52的处理完成的情况下，暂时结束图5所示的一系列的处理。

返回图4，CPU112在S22的处理完成时，对行动价值函数Q是否已收敛进行判定(S24)。在此，在S22的处理的行动价值函数Q的更新量成为预定值以下的连续次数达到预定次数的情况下判定为已收敛即可。CPU112在判定为未收敛的情况下(S24：否)、在S20的处理中作出否定判定的情况下，返回S12的处理。与此相对，CPU112在判定为已收敛的情况下(S24：是)，对结束条件是否成立进行判定(S26)。在本实施方式中，结束条件包括关于所有的关系规定数据DR均在S24的处理中作出肯定判定这一情况。

CPU112在结束条件不成立的情况下(S26：否)，返回S10的处理，对环境系数VA进行变更。例如在环境系数VA为“11”且关系规定数据DR11的更新已完成的情况下，CPU112将环境系数VA从“11”变更为“12”。另一方面，在结束条件成立的情况下(S26：是)，CPU112基于关系规定数据DR制作映射数据DM。即，CPU112通过将状态s与使上述期待收益最大化的行动变量的值建立关联，从而将映射数据DM作为将状态s作为输入、输出使期待收益最大化的行动变量的值的数据来制作。此时，CPU112基于关系规定数据DR11制作映射数据DM11，基于关系规定数据DR12制作映射数据DM12。CPU112基于关系规定数据DR21制作映射数据DM21。并且，CPU112使所制作的各映射数据DM存储于存储装置116。当映射数据DM的存储完成时，CPU112结束图4所示的一系列的处理。

在本实施方式中，利用通过图4所示的一系列的处理的执行而实现的强化学习，从而制作的映射数据DM，即各映射数据DM11、DM12、DM21、……存储于服务器130的存储装置136。即，服务器130能够将在生成装置110生成的映射数据DM向能够与该服务器130进行通信的车辆VC1、VC2、……提供。

图6示出为了控制车辆VC1而控制装置70执行的处理的步骤。图6所示的一系列的处理通过CPU72例如按预定周期反复执行存储于ROM74的控制程序74a来实现。

在图6所示的一系列的处理中，与图4的S12的处理同样，CPU72取得由加速器操作量PA的6个采样值“PA(1)、PA(2)、……、PA(6)”构成的时序数据、当前的变速比GR、以及车速V(S60)。然后，CPU72使用存储于存储装置76的映射数据DM，对节气门开度指令值TA*和变速比指令值GR*进行映射运算(S62)。例如，在映射数据DM11作为映射数据DM存储于存储装置76的情况下，CPU72使用映射数据DM11进行映射运算。另外，在映射数据DM21作为映射数据DM存储于存储装置76的情况下，CPU72使用映射数据DM21进行映射运算。在此，映射运算例如设为如下处理即可：在输入变量的值与映射数据DM的输入变量的值中的任一个一致的情况下，将对应的映射数据DM的输出变量的值作为运算结果，与此相对，在不一致的情况下，将通过对映射数据DM所包含的多个输出变量的值进行插值处理而得到的值作为运算结果。

然后，CPU72向节气门14输出操作信号MS1而对节气门开度TA进行操作，并且向变速装置50输出操作信号MS5而对变速比进行操作(S64)。在此，在本实施方式中，例示出将节气门开度TA反馈控制为节气门开度指令值TA*的情况，因此，即使节气门开度指令值TA*为相同的值，操作信号MS1也可能成为彼此不同的信号。然后，CPU72在S64的处理完成的情况下，暂时结束图6所示的一系列的处理。

在本实施方式中，进行车辆VC1的行驶环境是否发生了变化的判定。在判定为行驶环境发生了变化的情况下，将与此时的车辆VC1的行驶环境相关的信息即环境信息向服务器130发送。然后，当车辆VC1接收到与此时的行驶环境相应的映射数据DM时，将接收到的映射数据DM存储于车辆VC1的控制装置70的存储装置76。在图7示出为了实现这样的处理而控制装置70执行的处理的步骤。图7所示的一系列的处理通过CPU72执行存储于ROM74的控制程序74a来实现。例如，图7所示的一系列的处理以检测到用户落座于车辆VC1的座位为契机而执行。

在图7所示的一系列的处理中，CPU72取得车辆VC1的环境信息(S70)。车辆VC1的行驶环境包括车辆VC1此时的位置信息即此时的车辆VC1的行驶区域、和此时的季节双方。也就是说，与此时的车辆VC1的位置信息和季节相关的信息为车辆VC1的环境信息。例如，CPU72取得位置数据Pgps，并且通过位置数据Pgps取得地图数据DG所表示的地图上的位置来作为车辆VC1的位置信息。另外，例如，CPU72取得确定当前的季节或者当前的日期的信息作为与季节相关的信息。

接着，CPU72对车辆VC1的行驶环境是否发生了变化进行判定(S72)。通过对由在上一次执行图7所示的一系列的处理时所取得的环境信息表示的位置信息及季节、与由本次取得的环境信息表示的位置信息及季节进行比较，能够判定环境信息是否发生了变化。将由上一次的环境信息表示的位置信息设为上一次位置信息、将由上一次的环境信息表示的季节设为上一次季节。另外，将由本次的环境信息表示的位置信息设为本次位置信息、将由本次的环境信息表示的季节设为本次季节。然后，CPU72对由本次位置信息表示的区域与由上一次位置信息表示的区域不同的条件(C)、和本次季节与上一次季节不同的条件(D)中的至少一方是否成立进行判定。

在条件(C)和条件(D)均不成立的情况下(S72：否)，能够判定为环境信息没有发生变化，所以，CPU72结束图7所示的一系列的处理。另一方面，在条件(C)和条件(D)中的至少一方成立的情况下(S72：是)，能够判定为环境信息发生了变化，所以，CPU72将所取得的环境信息向服务器130发送(S74)。然后，CPU72判定是否接收到映射数据DM作为对信息发送的答复(S76)。在接收未完成的情况下(S76：否)，CPU72反复进行S76的处理直到接收完成为止。另一方面，在接收已完成的情况下(S76：是)，CPU72使接收到的映射数据DM存储于存储装置76(S78)。当存储装置76的映射数据DM的置换完成时，CPU72结束图7所示的一系列的处理。

图8示出服务器130执行的一系列的处理的流程。图8所示的一系列的处理通过CPU132执行存储于ROM134的控制程序134a来实现。该一系列的处理在服务器130工作时被反复执行。

在图8所示的一系列的处理中，CPU132对是否从能够与服务器130进行通信的车辆VC1接收到环境信息进行判定(S80)。在没有接收到的情况下(S80：否)，CPU132暂时结束图8所示的一系列的处理。另一方面，在接收到的情况下(S80：是)，CPU132从存储于存储装置136的多个映射数据DM11、DM12、DM21、……中选择与接收到的环境信息相应的映射数据DM(S82)。例如，在接收到车辆VC1的行驶区域为第1区域AR1、且季节为冬季的环境信息的情况下，CPU132选择映射数据DM12。然后，CPU132将所选择的映射数据DM向发送来环境信息的车辆VC1发送(S84)。当映射数据DM的发送完成时，CPU132暂时结束图8所示的一系列的处理。

对本实施方式的作用及效果进行说明。

当判定为车辆VC1的行驶环境发生了变化时，从服务器130向控制装置70提供与此时的行驶环境相应的映射数据DM。于是，在控制装置70中，使从服务器130接收到的映射数据DM存储于存储装置76，使用该映射数据DM对车辆VC1的电子设备进行操作。即，在本实施方式中，通过将与此时的车辆VC1的行驶环境相应的映射数据DM向车辆VC1提供，能够使控制装置70执行与该行驶环境相应的车辆控制。

在本实施方式中，能进一步得到以下所示的效果。

(1)在本实施方式中，当判定为车辆VC1的行驶区域发生了变化时，从服务器130向控制装置70提供与变化后的区域相应的映射数据DM。结果，能够使控制装置70执行与此时的行驶区域相应的车辆控制。

(2)另外，即使行驶区域没有发生变化，当判定为季节发生了变化时，也从服务器130向控制装置70提供与此时的季节相应的映射数据DM。结果，能够使控制装置70执行与此时的季节相应的车辆控制。此外，在本实施方式中，在判定为行驶区域和季节双方都发生了变化的情况下，也从服务器130向控制装置70提供与此时的行驶区域和季节相应的映射数据DM。

(3)在控制装置70的存储装置76中，存储映射数据DM而并非行动价值函数Q等。由此，CPU72基于使用了映射数据DM的映射运算，对节气门开度指令值TA*和变速比指令值GR*进行设定。结果，与使CPU72执行选择成为行动价值函数Q中的最大值的数据的处理的情况相比，能够减轻CPU72的运算负荷。

(4)在本实施方式中，使多个映射数据DM11、DM12、DM21、……存储于服务器130的存储装置136。由此，与使多个映射数据DM11、DM12、DM21、……预先存储于车辆VC1的控制装置70的情况相比，能够抑制控制装置70的存储容量的增大。

(第2实施方式)

以下，以与第1实施方式的不同点为中心，参照附图对第2实施方式进行说明。

如图9所示，在本实施方式中，在车辆VC1的控制装置70的存储装置76存储有关系规定数据DR和转矩输出映射数据DT来替代映射数据DM。另外，除控制程序74a以外，在ROM74还存储有学习程序74b。学习程序74b是用于通过强化学习来对关系规定数据DR进行学习的程序。

另外，由转矩输出映射数据DT规定的转矩输出映射是与将转速NE、充气效率η以及点火正时作为输入、将转矩Trq作为输出的神经网络等完成了学习的模型相关的数据。转矩输出映射数据DT例如是在执行图4的处理时，将通过S18的处理取得的转矩Trq作为教师数据进行学习而得到的数据即可。此外，充气效率η通过CPU72基于转速NE和吸入空气量Ga算出即可。

另外，在服务器130的存储装置136存储有关系规定数据DR11、DR12、DR21、……作为关系规定数据DR。存储于存储装置136的各关系规定数据DR11、DR12、DR21、……是在图4和图5所示的一系列的处理中导出的关系规定数据。

图10示出在对车辆VC1的电子设备进行操作并且对存储于存储装置76的关系规定数据DR进行更新时车辆VC1的控制装置70执行的处理的步骤。图10所示的一系列的处理通过CPU72执行存储于ROM74的控制程序74a和学习程序74b来实现。该一系列的处理在内燃机10工作时被反复执行。

在图10所示的一系列的处理中，CPU72取得加速器操作量PA的时序数据、当前的变速比GR以及车速V作为状态s(S100)。然后，与图4的S14同样，CPU72对与通过S100的处理取得的状态s相应的包括节气门开度指令值TA*和变速比指令值GR*的行动a进行设定(S102)。接着，CPU112基于所设定的节气门开度指令值TA*和变速比指令值GR*，向节气门14输出操作信号MS1而对节气门开度TA进行操作，并且向变速装置50输出操作信号MS5而对变速比进行操作(S104)。然后，CPU112取得转速NE、变速比GR、内燃机10的转矩Trq、对内燃机10的转矩指令值Trq*、以及加速度Gx(S106)。在此，CPU72通过将转速NE、充气效率η以及点火正时向转矩输出映射输入来算出转矩Trq。另外，CPU72根据加速器操作量PA对转矩指令值Trq*进行设定。

接着，与图4的S20同样，CPU112判定是否从进行了后述的S110的处理的定时起经过了预定期间(S108)。然后，CPU112在判定为经过了预定期间的情况下(S108：是)，通过强化学习对关系规定数据DR进行更新(S110)。另一方面，在未判定为经过预定期间的情况下(S108：否)，CPU72暂时结束图10所示的一系列的处理。

此外，图10的S110的处理与图5所示的一系列的处理为相同的内容。因此，在此省略图10的S110的处理的具体的说明。

在本实施方式中，在通过执行图10所示的一系列的处理而车辆VC1进行行驶的情况下，当如在图7的S72的处理中作出了肯定判定的情况那样判定为车辆VC1的行驶环境发生了变化时，与图7的S74的处理同样，将此时的环境信息向服务器130发送。当如在图8的S80的处理中作出了肯定判定的情况那样服务器130从车辆VC1接收到环境信息时，在服务器130中，与图8的S82的处理同样，从存储于存储装置136的多个数据中选择数据，在本实施方式中，从存储于存储装置136的各关系规定数据DR中选择与此时的车辆VC1的行驶环境相应的关系规定数据DR。然后，在服务器130中，与图8的S84的处理同样，将所选择的数据向车辆VC1发送，在本实施方式中，将关系规定数据DR向车辆VC1发送。在车辆VC1中，与图7的S78的处理同样，将从服务器130接收到的数据存储于存储装置76，在本实施方式中，将从服务器130接收到的关系规定数据DR存储于存储装置76。

在本实施方式中，在车辆VC1的控制装置70安装有关系规定数据DR和学习程序74b。因此，在车辆VC1从服务器130接收到与此时的行驶环境相应的关系规定数据DR后，在车辆VC1中继续进行该关系规定数据DR的更新。结果，能够使车辆控制进一步接近与此时的行驶环境相应的控制。

(第3实施方式)

以下，以与第2实施方式的不同点为中心，参照附图对第3实施方式进行说明。

如图11所示，在本实施方式中，与第2实施方式的情况不同，在服务器130中没有存储多个关系规定数据DR。

并且，在服务器130中，在因车辆VC1的行驶环境发生了变化而接收到车辆VC1的环境信息时，对与车辆VC1在相同的行驶环境行驶的其他车辆进行搜索。并且，在将搜索到的其他车辆作为搜索车辆的情况下，将在搜索车辆中使用的关系规定数据DR通过服务器130向车辆VC1提供。图12示出此时在服务器130中执行的处理的步骤。图12所示的一系列的处理通过CPU132执行存储于ROM134的控制程序134a来实现。该一系列的处理在服务器130工作时被反复执行。

在图12所示的一系列的处理中，CPU132判定是否从能够与服务器130进行通信的车辆VC1接收到环境信息(S120)。在没有接收到的情况下(S120：否)，CPU132暂时结束图12所示的一系列的处理。另一方面，在接收到的情况下(S120：是)，CPU132从能够与服务器130进行通信的多个车辆中搜索在与从车辆VC1接收到的环境信息所表示的行驶环境相同的行驶环境行驶的其他车辆即搜索车辆(S122)。在S122的处理中搜索到的车辆、即能够判断为与车辆VC1在相同的行驶环境行驶的车辆有时也存在多个。在这样的情况下，CPU132从满足条件的多个车辆中选择一个车辆作为搜索车辆。例如，在将车辆VC1的当前的行驶环境作为预定的行驶环境的情况下，CPU132选择在预定的行驶环境行驶的时间最长的车辆作为搜索车辆。这是因为，行驶时间越长，则能够推测为关系规定数据DR的更新越深入。

接着，CPU132要求搜索车辆的控制装置70发送在搜索车辆中使用的关系规定数据DR(S124)。然后，CPU132判定是否从搜索车辆接收到搜索车辆的关系规定数据DR(S126)。在尚未完成接收的情况下(S126：否)，CPU132反复进行S126的处理直到接收完成为止。另一方面，在完成了接收的情况下(S126：是)，CPU132将搜索车辆的关系规定数据DR向发送来环境信息的车辆VC1发送(S128)。当关系规定数据DR的发送完成时，CPU132暂时结束图12所示的一系列的处理。

即，在本实施方式中，当如在图7的S72的处理中作出了肯定判定的情况那样判定为车辆VC1的行驶环境发生了变化时，在服务器130中，从与车辆VC1在相同的行驶环境行驶的车辆即搜索车辆接收搜索车辆的关系规定数据DR(图12的S122～S126)。然后，将搜索车辆的关系规定数据DR向车辆VC1发送(图12的S128)。在车辆VC1中，与图7的S76的处理同样，从服务器130接收数据，在本实施方式中，接收在与此时的车辆VC1的行驶环境相同的环境进行行驶的其他车辆(搜索车辆)的关系规定数据DR。于是，在车辆VC1中，与图7的S78的处理同样，将从服务器130接收到的数据存储于存储装置76，在本实施方式中将从服务器130接收到的搜索车辆的关系规定数据DR存储于存储装置76。之后，基于新存储于存储装置76的关系规定数据DR对车辆VC1的电子设备进行操作。

搜索车辆在变更后的车辆VC1的行驶环境进行着行驶。即，在搜索车辆的控制装置70中，在该行驶环境下已深入进行了强化学习。因此，通过将搜索车辆的关系规定数据DR用于车辆VC1的电子设备的操作，能够在车辆VC1中进行适合此时的行驶环境的车辆控制。

另外，在该情况下，不需要预先在服务器130存储多个关系规定数据DR，所以能够抑制服务器130的存储容量的增大。

(对应关系)

上述实施方式中的事项与上述“发明内容”一栏所记载的事项的对应关系如下。以下，针对“发明内容”一栏所记载的技术方案的每个编号示出对应关系。

[1]～[3]车辆用控制装置在图2中对应于控制装置70，服务器在图2中对应于服务器130。第1存储装置在图2和图9中对应于存储装置76。执行装置即处理电路在图2和图9中由CPU72及ROM74、和CPU132及ROM134构成。状态取得处理与图6的S60、和图10的S100、S106对应，操作处理与图6的S64、图10的S104对应，环境判定处理与图7的S72对应。数据变更处理由图7的S76、S78、和图8的S82、S84构成。存储于第1存储装置的操作用数据在图2中对应于存储于存储装置76的映射数据DM，在图9中对应于存储于存储装置76的关系规定数据DR。

[4]关系规定数据在图9中对应于存储于存储装置76的关系规定数据DR。

[4]和[5]更新映射与由学习程序114a、学习程序74b中的执行图5的S46～S52的处理的指令规定的映射对应。

[5]控制用映射数据在图2中对应于存储于存储装置76的映射数据DM。

[6]第2存储装置在图2和图9中对应于存储装置136。存储于第2存储装置的各操作用数据在图2中对应于存储于存储装置136的各映射数据DM11、DM12、DM21、……，在图9中对应于存储于存储装置136的各关系规定数据DR11、DR12、DR21、……。数据选择处理与图8的S82对应，发送处理与图8的S84对应。数据存储处理与图7的S76、S78对应。

[7]车辆搜索处理与图12的S122对应，变更用数据取得处理与图12的S124、S126对应。数据存储处理由图12的S128、和图7的S76、S78构成。第1车辆与车辆VC1对应，第2车辆与搜索车辆对应。

[8]和[9]第1执行装置在图2和图9中对应于CPU72及ROM74。

[8]和[10]第2执行装置在图2和图9中对应于CPU132及ROM134。

(变更例)

本实施方式能够如以下那样变更而实施。本实施方式及以下的变更例能够在技术上不矛盾的范围内彼此组合而实施。

“关于车辆的行驶环境”

·在上述各实施方式中，取得车辆的当前的行驶区域和当前的季节作为环境信息，但不限于此。例如，也可以取得仅与车辆的当前的行驶区域、和当前的季节中的任一方相关的信息作为环境信息。

“关于行驶区域”

·在上述各实施方式中，根据从供油设施向车辆供给的燃料的性状的不同来区分区域，但不限于此。例如，也可以根据每个国家来区分行驶区域。这是因为每个国家的法规(例如与排气相关的法规)不同。

另外，即使在一个国家中也可以根据地域来区分，将区分后的各地域作为行驶区域。

另外，也可以按车辆行驶的每条道路来区分为行驶区域。例如，也可以按如高速道路那样以较高速的方式进行行驶的道路和一般道路来区分行驶区域。这是因为，在一般道路与高速道路之间，车辆的行驶方式可能不同。这是因为，在高速道路，大多以较高速的方式使车辆定速行驶，与此相对，在一般道路，大多使车辆进行使车辆加速、减速那样的行驶。

“关于表形式的数据的维度削减”

·作为表形式的数据的维度削减方法，不限于在上述各实施方式中例示的方法。例如加速器操作量PA很少会成为最大值，所以，也可以不对加速器操作量PA成为规定量以上的状态定义行动价值函数Q，加速器操作量PA成为规定量以上的情况下的节气门开度指令值TA*等也可以另行进行调整。另外，例如也可以通过从行动可取的值去掉节气门开度指令值TA*成为规定值以上的值等来进行维度削减。

“关于关系规定数据”

·在上述各实施方式中，将行动价值函数Q设为了表形式的函数，但不限于此。例如，也可以使用函数近似器。

·例如，也可以不使用行动价值函数Q，而作为替代，用将状态s和行动a作为自变量、将进行行动a的概率作为因变量的函数近似器来表示策略π，根据奖励r对确定函数近似器的参数进行更新。此外，在该情况下，也可以具备与环境系数VA的值相应的各自独立的函数近似器，另外，例如，也可以在作为单个函数近似器的自变量的状态s中包含环境系数VA。

“关于操作用数据”

·操作用数据是在导出车辆VC1的电子设备的操作指令值时使用的数据即可，也可以是与关系规定数据DR、控制用映射数据不同的数据。例如，也可以将通过与强化学习不同的学习处理进行更新的数据作为操作用数据。

·在上述第1实施方式和第2实施方式中，存储于第2存储装置的操作用数据的数量为两个以上即可，也可以是任意数。

“关于操作处理”

·例如在如“关于关系规定数据”一栏所记载的那样，将行动价值函数设为函数近似器的情况下，通过将关于上述各实施方式中的成为表型式的函数的自变量的行动的离散的值的组的全部，与状态s一起向行动价值函数Q输入，从而确定使行动价值函数Q最大化的行动a即可。在该情况下，例如，主要在操作中采用所确定的行动a，并且以预定的概率选择除此以外的行动即可。

·例如在如“关于关系规定数据”一栏所记载的那样，将策略π设为将状态s和行动a作为自变量、并将采用行动a的概率作为因变量的函数近似器的情况下，基于由策略π表示的概率来选择行动a即可。

“关于数据变更处理”

·在如上述第1实施方式那样向车辆提供与环境信息相应的映射数据DM的实施例中，例如考虑如“关于车辆的行驶环境”一栏所记载的那样，仅取得与车辆的行驶区域相关的信息作为环境信息的情况。在该情况下，例如也可以在第1区域AR1，销售作为将第1区域AR1用的映射数据预先存储于存储装置76的车辆的第1车辆，在第2区域AR2，销售作为将第2区域AR2用的映射数据预先存储于存储装置76的车辆的第2车辆。并且，也可以在第1车辆行驶的区域从第1区域AR1改变为第2区域AR2的情况下，服务器130从第2车辆接收第2区域AR2用的映射数据，将从第2车辆接收到的第2区域AR2用的映射数据向第1车辆提供。在该情况下，也可以不在服务器130的存储装置136预先存储多个映射数据。

“关于更新映射”

·在S46～S52的处理中，例示出利用ε软同策略型蒙特卡罗法的处理，但不限于此。例如，也可以是利用异策略(off-policy)型蒙特卡罗法的处理。不过，也不限于蒙特卡罗法，例如也可以使用异策略型TD法，另外例如也可以如SARSA法那样使用同策略型TD法，另外例如也可以使用资格迹(eligibility trace)法来作为同策略型的学习。

·例如在如“关于关系规定数据”一栏所记载的那样，使用函数近似器来表示策略π，基于奖励r对其直接进行更新的情况下，使用策略梯度法等构成更新映射即可。

·不限于仅将行动价值函数Q和策略π中的任一方作为基于奖励r的直接更新对象。例如，也可以如演员·评论家(actor-critic)算法那样分别对行动价值函数Q和策略π进行更新。另外，在演员·评论家算法中，不限于此，例如也可以替代行动价值函数Q而将价值函数作为更新对象。

“关于行动变量”

·在上述各实施方式中，作为与作为行动变量的节气门的开度相关的变量，例示出节气门开度指令值TA*，但不限于此。例如，也可以用浪费时间和二阶延迟滤波器来表示节气门开度指令值TA*相对于加速器操作量PA的响应性，将浪费时间和规定二阶延迟滤波器的两个变量这合计三个变量作为与节气门的开度相关的变量。但是，在该情况下，优选，将状态变量设为加速器操作量PA的每单位时间的变化量来替代加速器操作量PA的时序数据。

·在上述各实施方式中，作为行动变量，例示出与节气门的开度相关的变量和与变速比相关的变量，但不限于此。例如，也可以除了与节气门的开度相关的变量和与变速比相关的变量以外，还使用与点火正时相关的变量、与空燃比控制相关的变量。

·在如下述“关于内燃机”一栏所记载的那样的压缩着火式的内燃机的情况下，使用与喷射量相关的变量来替代与节气门的开度相关的变量即可。另外，除此以外，例如也可以使用与喷射定时相关的变量、与一燃烧循环中的喷射次数相关的变量、与一燃烧循环中的用于一个气缸的在时序上相邻的两个燃料喷射中的一方的结束正时与另一方的开始正时之间的时间间隔相关的变量。

·例如在变速装置50为有级变速装置的情况下，也可以将用于通过液压来调整离合器的接合状态的电磁阀的电流值等作为行动变量。

·在如下述“关于电子设备”一栏所记载的那样，与行动变量相应的操作对象中包括旋转电机的情况下，在行动变量中包含旋转电机的转矩、电流即可。即，作为与推力生成装置的负荷相关的变量即负荷变量，不限于与节气门的开度相关的变量、喷射量，也可以是旋转电机的转矩、电流。

·在如下述“关于电子设备”一栏所记载的那样，与行动变量相应的操作对象包括锁止离合器42的情况下，行动变量中包含表示锁止离合器42的接合状态的变量即可。在此，在行动变量中包含锁止离合器42的接合状态的情况下，根据提高能量利用效率的意思的要求事项的优先度的大小来改变行动变量的值这一做法尤其有效。

“关于车辆用控制数据的生成方法”

·在图4的S14的处理中，基于行动价值函数Q来决定行动，但不限于此，也可以以等概率的方式选择可采取的全部行动。

“关于控制用映射数据”

·作为通过将车辆的状态与使期待收益最大化的行动变量的值以一对一的方式建立关联，从而将车辆的状态作为输入并输出使期待收益最大化的行动变量的值的控制用映射数据，不限于映射数据(map data)。例如，也可以是函数近似器。关于此，例如能够通过如下方法来实现：在如上述“关于更新映射”一栏所记载的那样使用策略梯度法等的情况下，用表示可以取行动变量的值的概率的高斯分布来表示策略π，用函数近似器来表示其平均值，对表示平均值的函数近似器的参数进行更新，将学习后的平均值作为控制用映射数据。即，在此，将函数近似器输出的平均值视为使期待收益最大化的行动变量的值。此时，也可以对环境系数VA的每个值设置单独的函数近似器，也可以在单个函数近似器的自变量中的状态s中包含环境系数VA。

“关于状态”

·在上述各实施方式中，将加速器操作量PA的时序数据设为由等间隔地采样到的6个值构成的数据，但不限于此。只要是由彼此不同的采样定时下的2个以上的采样值构成的数据即可，此时，较优选的是，由3个以上的采样值构成的数据、采样间隔为等间隔的数据。

·作为与加速器操作量相关的状态变量，不限于加速器操作量PA的时序数据，例如如“关于行动变量”一栏所记载的那样，也可以是加速器操作量PA的每单位时间的变化量等。

·例如在如“关于行动变量”一栏所记载的那样，将电磁阀的电流值作为行动变量的情况下，状态中包含变速装置的输入轴52的转速、输出轴54的转速、由电磁阀调整的液压即可。另外，例如在如“关于行动变量”一栏所记载的那样，将旋转电机的转矩、输出作为行动变量的情况下，状态包含蓄电池的充电率、温度即可。另外，例如在如“关于行动变量”一栏所记载的那样，行动中包含压缩机的负荷转矩、空调装置的消耗电力的情况下，状态中包含车室内的温度即可。

“关于电子设备”

·作为成为与行动变量相应的操作对象的内燃机的操作部，不限于节气门14。例如，也可以是点火装置26、燃料喷射阀16。

·作为成为与行动变量相应的操作对象的电子设备中的、推力生成装置与驱动轮之间的驱动系统装置，不限于变速装置50，例如也可以是锁止离合器42。

·在如下述“关于推力生成装置”一栏所记载的那样，具备旋转电机作为推力生成装置的情况下，也可以将成为与行动变量相应的操作对象的电子设备设为连接于旋转电机的变换器等电力变换电路。不过，不限于车载驱动系统的电子设备，例如也可以是车载空调装置等。即使在该情况下，例如在车载空调装置由推力生成装置的旋转动力驱动的情况下，推力生成装置的动力中的向驱动轮60供给的动力取决于车载空调装置的负荷转矩，所以行动变量中包含车载空调装置的负荷转矩等做法是有效的。另外，例如即使车载空调装置不利用推力生成装置的旋转动力，也会对能量利用效率造成影响，所以在行动变量中添加车载空调装置的消耗电力这一做法是有效的。

“关于执行装置”

·作为执行装置，不限于具备CPU和ROM并执行软件处理的装置。例如，也可以具备对在上述各实施方式中执行的软件处理的至少一部分进行处理的例如ASIC等专用硬件电路。即，执行装置是以下的(a)～(c)中的任一构成即可。(a)具备根据程序来执行上述全部处理的处理装置、和存储程序的ROM等程序存储装置。(b)具备根据程序来执行上述处理的一部分的处理装置及程序存储装置、和执行剩余的处理的专用硬件电路。(c)具备执行上述全部处理的专用硬件电路。在此，具备处理装置和程序存储装置的软件执行装置、专用硬件电路也可以是多个。即，上述处理由具备1个或多个软件执行装置和1个或多个专用硬件电路中的至少一方的处理电路(processing circuitry)来执行即可。程序存储装置即计算机可读介质包括能够由通用或专用的计算机访问的一切可利用的介质。

“关于内燃机”

·作为内燃机，不限于具备向进气通路12喷射燃料的端口喷射阀作为燃料喷射阀的内燃机，也可以是具备直接向燃烧室24喷射燃料的缸内喷射阀的内燃机，另外，例如也可以是具备端口喷射阀和缸内喷射阀双方的内燃机。

·作为内燃机，不限于火花点火式内燃机，例如也可以是使用轻油等作为燃料的压缩着火式内燃机等。

“关于车辆”

·车辆也可以并非仅具备内燃机作为车辆的推力生成装置，例如也可以是具备内燃机和旋转电机双方的混合动力车辆。另外，例如车辆也可以是如电动汽车、燃料电池车那样推力生成装置仅为旋转电机的车辆。

Claims

1.一种车辆控制方法，

适用于具备设置于车辆的车辆用控制装置、和与所述车辆用控制装置进行通信的服务器的系统，

存储在操作所述车辆的电子设备时使用的操作用数据的第1存储装置设置于所述车辆用控制装置，

所述车辆控制方法包括：

处理电路执行状态取得处理，所述状态取得处理是取得基于设置于所述车辆的传感器的检测值的所述车辆的状态的处理；

所述处理电路执行操作处理，所述操作处理是基于在所述状态取得处理中取得的所述车辆的状态、和存储于所述第1存储装置的所述操作用数据，对所述电子设备进行操作的处理；

所述处理电路执行环境信息取得处理，所述环境信息取得处理是取得与所述车辆行驶的环境即行驶环境相关的信息即环境信息的处理；

所述处理电路执行环境判定处理，所述环境判定处理是对在所述环境信息取得处理中取得的所述环境信息表示的所述行驶环境是否发生了变化进行判定的处理；以及

所述处理电路执行数据变更处理，所述数据变更处理是在所述环境判定处理中判定为所述行驶环境发生了变化时，使所述车辆用控制装置从所述服务器取得与所述环境信息相应的所述操作用数据，并使该操作用数据存储于所述第1存储装置的处理。

2.根据权利要求1所述的车辆控制方法，

所述环境信息包括与所述车辆行驶的区域相关的信息，

所述环境判定处理包括在所述环境信息表示的所述车辆行驶的区域发生了变化时，判定为所述行驶环境发生了变化的处理。

3.根据权利要求1或2所述的车辆控制方法，

所述环境信息包括与当前的季节相关的信息，

所述环境判定处理包括在所述环境信息表示的季节发生了变化时，判定为所述行驶环境发生了变化的处理。

4.根据权利要求1～3中任一项所述的车辆控制方法，

所述操作用数据包括规定所述车辆的状态与行动变量的关系的关系规定数据，所述行动变量是与所述电子设备的操作相关的变量，

所述关系规定数据是通过执行如下处理而得到的数据，所述处理包括：根据基于通过所述车辆的状态和所述关系规定数据确定的所述行动变量的值操作了所述电子设备时的所述车辆的状态给予奖励，且在所述车辆的特性满足预定的基准的情况下给予的所述奖励比所述车辆的特性不满足所述预定的基准的情况下给予的所述奖励大的处理；和将操作了所述电子设备时的所述车辆的状态、在所述电子设备的操作中使用的所述行动变量的值、以及与该操作对应的所述奖励用作向预先设定的更新映射的输入，对所述关系规定数据进行更新的处理，

所述更新映射输出以使得关于根据所述关系规定数据操作所述电子设备的情况下的所述奖励的期待收益增加的方式进行更新而得到的所述关系规定数据。

5.根据权利要求1～3中任一项所述的车辆控制方法，

所述操作用数据包括根据关系规定数据制作的控制用映射数据，所述关系规定数据是规定所述车辆的状态和与所述电子设备的操作相关的变量即行动变量的关系的数据，

6.根据权利要求1～5中任一项所述的车辆控制方法，

所述服务器具备第2存储装置，所述第2存储装置存储与设想的多个所述环境信息分别对应的多个所述操作用数据，

所述数据变更处理包括数据选择处理、发送处理以及数据存储处理，

所述数据选择处理是从存储于所述第2存储装置的多个所述操作用数据中选择与在所述环境信息取得处理中取得的所述环境信息相应的数据的处理，

所述发送处理是将在所述数据选择处理中选择的所述操作用数据向所述车辆用控制装置发送的处理，

所述数据存储处理是使在所述发送处理中从所述服务器发送的所述操作用数据存储于所述第1存储装置的处理。

7.根据权利要求4所述的车辆控制方法，

所述车辆是能够与所述服务器进行通信的多个车辆中的第1车辆，

所述数据变更处理包括车辆搜索处理、变更用数据取得处理、发送处理以及数据存储处理，

所述车辆搜索处理是在所述第1车辆的所述环境信息表示的所述行驶环境发生了变化时，对在与变更后的所述第1车辆的所述行驶环境相同的所述行驶环境行驶的第2车辆进行搜索的处理，

所述变更用数据取得处理是使所述服务器从在所述车辆搜索处理中搜索到的所述第2车辆取得该第2车辆的所述关系规定数据的处理，

所述发送处理是将在所述变更用数据取得处理中使所述服务器取得的所述第2车辆的所述关系规定数据向所述第1车辆发送的处理，

所述数据存储处理是使在所述发送处理中从所述服务器向所述第1车辆发送的所述第2车辆的所述操作用数据存储于所述第1车辆的所述第1存储装置的处理。

8.根据权利要求1～7中任一项所述的车辆控制方法，

所述处理电路具备设置于所述车辆的第1执行装置、和设置于所述服务器的第2执行装置，

所述车辆控制方法包括：由所述第1执行装置执行所述状态取得处理和所述操作处理；由所述第1执行装置或所述第2执行装置执行所述环境信息取得处理；以及由所述第1执行装置和所述第2执行装置协作地执行所述数据变更处理。

9.一种车辆用控制装置，

具备权利要求8所述的所述第1执行装置和所述第1存储装置。

10.一种服务器，

具备权利要求8所述的所述第2执行装置。