CN112682182B

CN112682182B - 车辆用控制装置、车辆用控制系统以及车辆控制方法

Info

Publication number: CN112682182B
Application number: CN202011111168.1A
Authority: CN
Inventors: 桥本洋介; 片山章弘; 大城裕太; 杉江和纪; 冈尚哉
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2019-10-18
Filing date: 2020-10-16
Publication date: 2023-05-12
Anticipated expiration: 2040-10-16
Also published as: JP2021067197A; US11453376B2; CN112682182A; US20210114581A1; JP6705546B1

Abstract

本公开涉及车辆用控制装置、车辆用控制系统以及车辆控制方法。车辆用控制装置包括存储装置以及执行装置，存储装置存储关系规定数据，关系规定数据规定车辆的状态与行动变量的关系，行动变量是与所述车辆内的电子设备的操作有关的变量。所述执行装置构成为执行：取得传感器的检测值的取得处理；操作所述电子设备的操作处理；奖励计算处理；更新所述关系规定数据的更新处理；检测处理；和将所述关系规定数据切换为处置后用数据的切换处理。所述执行装置构成为基于更新映射，输出以使按照所述关系规定数据来操作所述电子设备的情况下的关于奖励的期待收益增加的方式进行了更新的所述关系规定数据。

Description

车辆用控制装置、车辆用控制系统以及车辆控制方法

技术领域

本发明涉及车辆用控制装置、车辆用控制系统以及车辆控制方法。

背景技术

例如日本特开2016-6327中记载了一种控制装置，该控制装置基于将加速踏板的操作量通过过滤器处理得到的值，操作作为搭载于车辆的内燃机的操作部的节气门。

发明内容

可是，因为上述过滤器需要根据加速踏板的操作量将搭载于车辆的内燃机的节气门的操作量设定为适当的操作量，所以其适配需要熟练者花费许多工时。如此，以往在与车辆的状态相应的车辆内的电子设备的操作量等的适配中，熟练者花费了许多工时。

本公开的第1技术方案涉及的车辆用控制装置包括存储装置以及执行装置。所述存储装置存储有规定车辆的状态与行动变量的关系的关系规定数据，所述行动变量是与所述车辆内的电子设备的操作有关的变量。所述执行装置构成为执行取得处理，该取得处理取得构成为检测所述车辆的状态的传感器的检测值。所述执行装置构成为执行操作处理，该操作处理基于由所述关系规定数据和通过所述取得处理所取得的所述检测值而确定的所述行动变量的值，操作所述电子设备。所述执行装置构成为执行奖励(奖赏)计算处理，该奖励计算处理基于通过所述取得处理所取得的所述检测值，在所述车辆的特性满足基准的情况下，与所述车辆的特性不满足所述基准的情况相比，给予较大的奖励。所述执行装置构成为执行更新处理，该更新处理将基于通过所述取得处理所取得的所述检测值的所述车辆的状态、所述电子设备的操作中所使用了的所述行动变量的值、和与所述操作对应的所述奖励作为向预先确定的更新映射的输入，更新所述关系规定数据。所述执行装置构成为执行检测处理，该检测处理检测进行了所述车辆内的部件中的、因通过所述操作处理进行的操作而产生的给所述车辆的状态带来的影响的部件的功能恢复处置这一情况。所述执行装置构成为执行切换处理，该切换处理在通过所述检测处理检测到进行了功能恢复处置的情况下，将所述操作处理所要利用的所述关系规定数据切换为处置后用数据，所述处置后用数据是在所述功能恢复处置被进行的时间点的预定期间前的数据。所述执行装置构成为基于所述更新映射，输出以使按照所述关系规定数据来操作所述电子设备的情况下的关于所述奖励的期待收益(回报)增加的方式进行了更新的所述关系规定数据。

根据上述第1技术方案，通过计算伴随电子设备的操作的奖励，能够掌握通过该操作而获得怎样的奖励。而且，通过基于奖励，根据按照强化学习的更新映射，将关系规定数据更新，从而能够将车辆的状态与行动变量的关系设定为在车辆的行驶中适当的关系。因此，能够削减在设定车辆的状态与行动变量的关系时需要熟练者花费的工时。

此外，在车辆内的部件劣化等情况下，通过强化学习，关系规定数据在使用了劣化了的部件时被更新为适当的数据。因此，之后在进行了功能恢复处置的情况下，存在关系规定数据变成不是在使期待收益增大的方面适当的数据的可能性。于是，根据上述第1技术方案，在被进行功能恢复处置的情况下，通过切换处理，将操作处理所要利用的关系规定数据切换为处置后用数据，从而能够抑制由于被进行功能恢复处置所引起的期待收益的降低。

在所述第1技术方案中，所述切换处理也可以包括如下处理：将伴随所述车辆的行驶而通过所述更新处理进行了更新的所述关系规定数据作为所述处置后用数据。

根据上述第1技术方案，伴随车辆的行驶而通过更新处理被进行了更新的关系规定数据相比于车辆的行驶开始前的初始数据，指定与车辆的状态相应的更适当的行动变量的值的可能性较高。因此，根据上述第1技术方案，通过将伴随车辆的行驶而通过更新处理被进行了更新的关系规定数据作为处置后用数据，与将车辆的行驶开始前的初始数据作为处置后用数据的情况相比，能够基于切换处理后的关系规定数据设定与功能恢复处置后的车辆的状态相应的更适当的行动变量的值。

在所述第1技术方案中，执行装置也可以构成为执行过去数据维持处理，在所述过去数据维持处理中，有别于通过所述更新处理进行更新的所述关系规定数据，使在到预定的条件成立为止通过所述更新处理进行更新并且在所述预定的条件成立之后避免通过所述更新处理进行的更新的所述关系规定数据成为存储于所述存储装置的状态。所述切换处理也可以包括如下处理：使用通过所述过去数据维持处理而维持了存储于所述存储装置的状态的所述关系规定数据，作为所述处置后用数据。

根据上述第1技术方案，通过执行过去数据维持处理，作为处置后用处理，能够维持根据车辆内的部件的劣化等而被更新的程度小的关系规定数据，进而能够用其作为处置后用数据。

在所述第1技术方案中，所述执行装置也可以构成为执行：处置后用数据请求处理，在通过所述检测处理检测到进行了所述功能恢复处置的情况下，发送请求所述处置后用数据的信号；以及处置后用数据接收处理，接收作为所述处置后用数据请求处理的结果而发送来的所述处置后用数据。所述切换处理也可以包括如下处理：将所述操作处理所要利用的所述关系规定数据切换为接收到的所述处置后用数据。

根据上述第1技术方案，通过执行处置后用数据请求处理以及处置后用数据接收处理，即使在控制装置中没有保持处置后用数据的情况下，也能够得到处置后用数据。

本发明的第2技术方案涉及的车辆用控制系统包括存储装置和执行装置。所述存储装置存储有规定车辆的状态与行动变量的关系的关系规定数据，所述行动变量是与所述车辆内的电子设备的操作有关的变量。所述执行装置包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置。所述第1执行装置构成为执行取得处理，该取得处理取得构成为检测所述车辆的状态的传感器的检测值。所述第1执行装置构成为执行操作处理，该操作处理基于由所述关系规定数据和通过所述取得处理所取得的所述检测值而确定的所述行动变量的值，操作所述电子设备。所述第1执行装置构成为执行检测处理，该检测处理检测进行了所述车辆内的部件中的、因通过所述操作处理进行的操作而产生的给所述车辆的状态带来的影响的部件的功能恢复处置这一情况。所述第2执行装置构成为执行处置后用数据发送处理，该处置后用数据发送处理在通过所述检测处理检测到进行了所述功能恢复处置的情况下发送处置后用数据，所述处置后用数据是在所述功能恢复处置被进行的时间点的预定期间前的数据。所述第1执行装置构成为执行处置后用数据接收处理，该处置后用数据接收处理接收通过所述处置后用数据发送处理而发送来的数据。

根据上述第2技术方案，通过有别于车载装置的第2执行装置执行处置后用数据发送处理，即使在第1执行装置中没有保持处置后用数据的情况下，也能够得到处置后用数据。此外，第2执行装置是有别于车载装置的装置意味着第2执行装置不是车载装置。

在所述第2技术方案中，所述第1执行装置也可以构成为执行所述检测处理以及处置后用数据请求处理，所述处置后用数据请求处理在通过所述检测处理检测到进行了所述功能恢复处置的情况下，发送请求所述处置后用数据的信号。

根据上述第2技术方案，通过执行处置后用数据请求处理以及处置后用数据接收处理，即使在第1执行装置中没有保持处置后用数据的情况下，也能够得到处置后用数据。

在所述第2技术方案中，所述处置后用数据发送处理也可以包括如下处理：将与进行了所述功能恢复处置的所述车辆相比所述部件的劣化程度较低的车辆的所述关系规定数据作为所述处置后用数据来发送。

根据上述第2技术方案，将部件的劣化程度低的车辆的关系规定数据视作是在被进行功能恢复处置的时间点的预定期间前的数据，并利用该数据作为处置后用数据。由此，与将关系规定数据中的车辆行驶前的初始数据作为处置后用数据的情况相比，能够将虽然部件的劣化没在发展但是通过伴随实际行驶的强化学习而在某种程度上被更新了的关系规定数据作为处置后用数据。

在所述第2技术方案中，所述第1执行装置也可以构成为执行所述更新处理。

本公开的第3技术方案涉及车辆控制方法。所述车辆包括存储装置和执行装置。所述存储装置构成为存储关系规定数据，所述关系规定数据是规定所述车辆的状态与行动变量的关系的数据，所述行动变量是与所述车辆内的电子设备的操作有关的变量。所述方法包括：由所述执行装置执行取得处理，该取得处理取得构成为检测所述车辆的状态的传感器的检测值；由所述执行装置执行操作处理，该操作处理基于由所述关系规定数据和通过所述取得处理所取得的所述检测值而确定的所述行动变量的值，操作所述电子设备；由所述执行装置执行奖励计算处理，该奖励计算处理基于通过所述取得处理所取得的所述检测值，在所述车辆的特性满足基准的情况下，与所述车辆的特性不满足所述基准的情况相比，给予较大的奖励；由所述执行装置执行更新处理，该更新处理将基于通过所述取得处理所取得的所述检测值的所述车辆的状态、所述电子设备的操作中所使用了的所述行动变量的值、和与所述操作对应的所述奖励作为向预先确定的更新映射的输入，更新所述关系规定数据；由所述执行装置执行检测处理，该检测处理检测进行了所述车辆内的部件中的、因通过所述操作处理进行的操作而产生的给所述车辆的状态带来的影响的部件的功能恢复处置这一情况；由所述执行装置执行切换处理，该切换处理在通过所述检测处理检测到进行了功能恢复处置的情况下，将所述操作处理所要利用的所述关系规定数据切换为处置后用数据，所述处置后用数据是在所述功能恢复处置被进行的时间点的预定期间前的数据；以及由所述执行装置基于所述更新映射，输出以使按照所述关系规定数据来操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据。

附图说明

以下，参照附图对本发明的示例性实施方式的特征、优点以及技术和产业意义进行说明，在附图中相同的附图标记表示相同的要素，并且其中：

图1是表示第1实施方式涉及的控制装置及其驱动系统的图。

图2是表示所述实施方式涉及的控制装置执行的处理的步骤的流程图。

图3是表示所述实施方式涉及的控制装置执行的处理的一部分的详细步骤的流程图。

图4是表示所述实施方式涉及的控制装置执行的处理的步骤的流程图。

图5是表示第2实施方式涉及的车辆用控制系统的构成的图。

图6是表示车辆用控制系统执行的处理的步骤的流程图。

具体实施方式

第1实施方式

以下，参照附图，对车辆用控制装置的第1实施方式进行说明。图1表示本实施方式涉及的车辆VC1的驱动系统以及控制装置的构成。

如图1所示，在内燃机10的进气通路12，从上游侧起依次设置有节气门14和燃料喷射阀16，被吸入到进气通路12的空气和从燃料喷射阀16喷射出的燃料随着进气门18的开阀而向由汽缸20和活塞22划分的燃烧室24流入。在燃烧室24内，燃料与空气的混合气伴随着点火装置26的火花放电而用于燃烧，通过燃烧产生的能量经由活塞22被转换为曲轴28的旋转能。用于了燃烧的混合气随着排气门30的开阀而作为排气(废气)向排气通路32排出。在排气通路32设置有作为净化排气的后处理装置的催化剂34。

变速装置50的输入轴52能够经由具备锁止离合器42的变矩器40以机械方式连结于曲轴28。变速装置50是使作为输入轴52的转速与输出轴54的转速之比的变速比(传动比、齿轮速比)可变的装置。在输出轴54上以机械方式连结有驱动轮60。

控制装置70将内燃机10作为控制对象，为了控制作为其控制量的转矩和/或排气成分比率等而操作节气门14、燃料喷射阀16以及点火装置26等内燃机10的操作部。另外，控制装置70将变矩器40作为控制对象，为了控制锁止离合器42的接合状态而操作锁止离合器42。另外，控制装置70将变速装置50作为控制对象，为了控制作为其控制量的变速比而操作变速装置50。此外，在图1中记载了节气门14、燃料喷射阀16、点火装置26、锁止离合器42以及变速装置50各自的操作信号MS1～MS5。

控制装置70为了进行控制量的控制，参照由空气流量计80检测的吸入空气量Ga和/或由节气门传感器82检测的节气门14的开度(节气门开度TA)、曲轴角传感器84的输出信号Scr。另外，控制装置70参照由加速器传感器88检测的加速踏板86的踏入量(加速器操作量PA)和/或由加速度传感器90检测的车辆VC1的前后方向的加速度Gx。另外，控制装置70参照由全球定位系统(GPS)92得到的位置数据Pgps。

控制装置70具备CPU72、ROM74、可电改写的非易失性存储器(存储装置76)以及外围电路78，它们能够经由局域网79进行通信。在此，外围电路78包括生成规定内部动作的时钟信号的电路、电源电路、复位(reset)电路等。

在ROM74中存储有控制程序74a以及学习程序74b。另一方面，在存储装置76中存储有关系规定数据DR和其初始数据DR0，关系规定数据DR是规定加速器操作量PA与节气门开度TA的指令值(节气门开度指令值TA*)以及点火装置26的延迟量aop的关系的数据。在此，延迟量aop是相对于预先确定的基准点火正时的延迟量，基准点火正时是MBT点火正时和爆震临界点中的延迟侧的正时。MBT点火正时是获得最大转矩的点火正时(最大转矩点火正时)。另外，爆震临界点是在使用爆震临界高的高辛烷值燃料时能够在设想的最佳的条件下将爆震控制在能容许的等级以内的点火正时的提前界限值。另外，在存储装置76中存储有转矩输出映射数据DT。由转矩输出映射数据DT规定的转矩输出映射是以曲轴28的转速NE、填充(充气)效率η以及点火正时为输入并以转矩Trq为输出的映射。

图2表示本实施方式涉及的控制装置70执行的处理的步骤。图2所示的处理通过由CPU72例如按预定周期反复执行存储于ROM74的控制程序74a以及学习程序74b来实现。此外，以下利用开头附加有“S”的数字来表示各处理的步骤编号。

在图2所示的一系列处理中，首先，CPU72取得包括加速器操作量PA的6个采样值“PA(1)、PA(2)、……PA(6)”的时间序列数据作为状态s(S10)。在此，构成时间序列数据的各采样值是在互不相同的定时(timing)采样得到的值。在本实施方式中，由按一定的采样周期采样的情况下的彼此在时间序列上相邻的6个采样值构成时间序列数据。

接着，CPU72按照关系规定数据DR确定的策略π，设定与通过S10的处理取得的状态s相应的包括节气门开度指令值TA*及延迟量aop的行动a(S12)。

在本实施方式中，关系规定数据DR是确定行动价值函数Q及策略π的数据。在本实施方式中，行动价值函数Q是表示与状态s及行动a的8维自变量相应的期待收益的值的表(table)形式的函数。另外，策略π确定以下规则：在被给出了状态s时，优先选择自变量成为被给出的状态s的行动价值函数Q中的期待收益的值成为最大的行动a(贪婪行动(greedyaction))，并且也以预定的概率ε选择除此以外的行动a。

详细而言，本实施方式涉及的行动价值函数Q的自变量可取的值的数量是根据人的见解等而削减了状态s及行动a的可取的值的全部组合中的一部分后的数量。即，例如像加速器操作量PA的时间序列数据中的相邻的两个采样值中的一个成为加速器操作量PA的最小值、且另一个成为最大值这样的情况，不会是由人对加速踏板86的操作产生的，从而没有定义行动价值函数Q。在本实施方式中，通过基于人的见解等的降维，将定义行动价值函数Q的状态s的可取的值限制在小于等于10的4次方个，更优选为限制在小于等于10的3次方个。

接着，CPU72基于所设定的节气门开度指令值TA*以及延迟量aop，向节气门14输出操作信号MS1来操作节气门开度TA，并且向点火装置26输出操作信号MS3来操作点火正时(S14)。在此，在本实施方式中，例示将节气门开度TA反馈控制为节气门开度指令值TA*的情况，所以，即使节气门开度指令值TA*为同一值，操作信号MS1也可能成为互不相同的信号。另外，例如在被进行周知的爆震控制(KCS)等的情况下，点火正时被设为使基准点火正时延迟了延迟量aop后的值通过KCS而被反馈校正得到的值。在此，基准点火正时由CPU72根据曲轴28的转速NE以及填充效率η可变地设定。此外，转速NE由CPU72基于曲轴角传感器84的输出信号Scr算出。另外，填充效率η由CPU72基于转速NE以及吸入空气量Ga算出。

接着，CPU72取得内燃机10的转矩Trq、对于内燃机10的转矩指令值Trq*、以及加速度Gx(S16)。在此，CPU72通过将转速NE、填充效率η以及点火正时输入到转矩输出映射，计算转矩Trq。另外，CPU72根据加速器操作量PA设定转矩指令值Trq*。

接着，CPU72判定过渡标志F是否为“1”(S18)。过渡标志F在为“1”的情况下表示处于过渡运行时，在为“0”的情况下表示不处于过渡运行时。CPU72在判定为过渡标志F是“0”的情况下(S18：否)，判定加速器操作量PA的每单位时间的变化量ΔPA的绝对值是否在预定量ΔPAth以上(S20)。在此，变化量ΔPA例如作为在S20的处理的执行定时的最新的加速器操作量PA与相对于该定时的单位时间前的加速器操作量PA之差即可。

CPU72在判定为变化量ΔPA的绝对值在预定量ΔPAth以上的情况下(S20：是)，对过渡标志F代入“1”(S22)。相对于此，CPU72在判定为过渡标志F是“1”的情况下(S18：是)，判定从S22的处理的执行定时起是否经过了预定期间(S24)。在此，预定期间作为到加速器操作量PA的每单位时间的变化量ΔPA的绝对值变为比预定量ΔPAth小的规定量以下的状态持续预定时间为止的期间。CPU72在判定为经过了预定期间的情况下(S24：是)，对过渡标志F代入“0”(S26)。

CPU72在S22、S26的处理完成的情况下，作为一个情节(episode)结束，通过强化学习来更新行动价值函数Q(S28)。图3表示S28的处理的详情。

在图3所示的一系列处理中，CPU72取得包括最近刚结束的情节中的转矩指令值Trq*、转矩Trq以及加速度Gx的3个采样值的组的时间序列数据、和状态s及行动a的时间序列数据(S30)。在此，关于最近的情节，在继S22的处理之后进行S30的处理的情况下，是过渡标志F持续成为“0”的期间，在继S26的处理之后进行S30的处理的情况下，是过渡标志F持续成为“1”的期间。

在图3中，括号中的数字不同的变量表示是在不同的采样定时的变量的值。例如，转矩指令值Trq*(1)和转矩指令值Trq*(2)是采样定时互不相同的值。另外，将属于最近的情节的行动a的时间序列数据定义为行动集合Aj，将属于该情节的状态s的时间序列数据定义为状态集合Sj。

接着，CPU72判定属于最近的情节的任意转矩Trq与转矩指令值Trq*之差的绝对值在规定量ΔTrq以下这一意思的条件(i)、和加速度Gx在下限值GxL以上且在上限值GxH以下这一意思的条件(ii)的逻辑与(AND)是否为真(S32)。

在此，CPU72根据情节开始时的加速器操作量PA的每单位时间的变化量ΔPA，可变地设定规定量ΔTrq。即，CPU72在变化量ΔPA的绝对值大的情况下设为是关于过渡时的情节，与稳态(定常)时的情况相比，将规定量ΔTrq设定为较大的值。

另外，CPU72根据情节开始时的加速器操作量PA的每单位时间的变化量ΔPA，可变地设定下限值GxL。即，CPU72在是关于过渡时的情节且变化量ΔPA为正的情况下，与关于稳态时的情节的情况相比，将下限值GxL设定为较大的值。另外，CPU72在是关于过渡时的情节且变化量ΔPA为负的情况下，与关于稳态时的情节的情况相比，将下限值GxL设定为较小的值。

另外，CPU72根据情节开始时的加速器操作量PA的每单位时间的变化量ΔPA，可变地设定上限值GxH。即，CPU72在是关于过渡时的情节且变化量ΔPA为正的情况下，与关于稳态时的情节的情况相比，将上限值GxH设定为较大的值。另外，CPU72在是关于过渡时的情节且变化量ΔPA为负的情况下，与关于稳态时的情节的情况相比，将上限值GxH设定为较小的值。

CPU72在判定为逻辑与是真的情况下(S32：是)，对奖励r代入“10”(S34)，另一方面，在判定为逻辑与是假的情况下(S32：否)，对奖励r代入“-10”(S36)。CPU72在S34、S36的处理完成的情况下，将图1所示的存储于存储装置76的关系规定数据DR更新。在本实施方式中，使用ε软同策略型蒙特卡洛方法(ε-soft on-policy type Monte Carlo method)。

即，CPU72对由通过上述S30的处理读取到的各状态和对应的行动的组所确定的收益R(Sj，Aj)分别加上奖励r(S38)。在此，“R(Sj，Aj)”是对将状态集合Sj的元素之一作为状态、将行动集合Aj的元素之一作为行动的收益R进行了总括的记载。接着，将由通过上述S30的处理读取到的各状态和对应的行动的组所确定的收益R(Sj，Aj)的每一个进行平均化并代入到对应的行动价值函数Q(Sj，Aj)(S40)。在此，将平均化设为如下处理即可：将通过S38的处理计算出的收益R除以对进行了S38的处理的次数加上预定数得到的数。此外，收益R的初始值设为对应的行动价值函数Q的初始值即可。

接着，CPU72对于通过上述S30的处理读取到的状态，分别将对应的行动价值函数Q(Sj，A)中的、期待收益成为最大值时的作为节气门开度指令值TA*以及延迟量aop的组的行动代入到行动Aj*(S42)。在此，“A”表示可取的任意的行动。此外，行动Aj*是根据通过上述S30的处理读取到的状态的种类而成为不同的值的行动，但在此对记载进行简化，用同一标号进行记载。

此外，CPU72在S44的处理完成的情况下，暂时结束图3所示的一系列处理。回到图2，CPU72在S28的处理完成的情况下或在S20、S24的处理中作出否定判定的情况下，暂时结束图2所示的一系列处理。此外，S10～S26的处理通过CPU72执行控制程序74a来实现，S28的处理通过CPU72执行学习程序74b来实现。另外，在车辆VC1出厂时的关系规定数据DR与初始数据DR0相同。初始数据DR0成为通过一边在测试台(test bench)上对车辆的行驶进行模拟等一边执行与图2所示的处理同样的处理从而预先学习过的数据。

图4表示本实施方式涉及的控制装置70执行的处理的步骤。图4所示的处理通过由CPU72例如按预定周期反复执行存储于ROM74的学习程序74b来实现。

在图4所示的一系列处理中，首先，CPU72判定车辆VC1的行驶距离RL是否成为了预定距离(S50)。在此，预定距离例如设为1万千米(km)、2万千米、3万千米、……等由预定量的倍数表示的多个距离。CPU72在判定为行驶距离RL是预定距离的情况下(S50：是)，将这时的关系规定数据DR作为已更新数据DR1存储于存储装置76(S52)。此外，在将上述预定量设为“1万千米”的情况下，当行驶距离RL成为2万千米时，则有两个不同的数据作为已更新数据DR1存储于存储装置76。即，每当判定为行驶距离RL是预定距离时，这时的关系规定数据DR都新作为已更新数据DR1而存储于存储装置76，已更新数据DR1逐渐增多。

CPU72在S52的处理完成的情况下或在S50的处理中作出否定判定的情况下，判定是否进行了功能恢复处置(S54)。在本实施方式中，假设在进行伴随车辆VC1的保养维修的搭载于车辆VC1的部件的功能恢复处置的情况下，从扫描工具(scan tool)向控制装置70输入表示进行了功能恢复处置这一意思的信号。因此，CPU72在被输入表示进行了功能恢复处置这一意思的信号的情况下，判定为进行了功能恢复处置。

CPU72在判定为进行了功能恢复处置的情况下(S54：是)，判定是否存在当行驶距离比当前的行驶距离RL短预定量ΔL以上的时间点的已更新数据DR1(S56)。而且，CPU72在判定为存在已更新数据DR1的情况下(S56：是)，对处置后用数据DRp代入已更新数据DR1(S58)。此外，在存储装置76中，作为已更新数据DR1而存储有多个成为通过S56的处理被作出肯定判定的对象的数据的情况下，CPU72将其中的行驶距离RL最长时的数据代入到处置后用数据DRp。相对于此，CPU72在判定为不存在已更新数据DR1的情况下(S56：否)，对处置后用数据DRp代入初始数据DR0(S60)。

CPU72在S58、S60的处理完成的情况下，将S12的处理所要利用的关系规定数据DR改写成处置后用数据DRp(S62)。此外，CPU72在S62的处理完成的情况下或在S54的处理中作出否定判定的情况下，暂时结束图4所示的一系列处理。

在此，对本实施方式的作用以及效果进行说明。CPU72随着由用户对加速踏板86的操作，取得加速器操作量PA的时间序列数据，并按照策略π，设定包括节气门开度指令值TA*以及延迟量aop的行动a。在此，CPU72基本上基于在关系规定数据DR中所规定的行动价值函数Q，选择使期待收益成为最大的行动a。但是，CPU72通过以预定的概率ε选择使期待收益最大化的行动a以外的行动，进行使期待收益最大化的行动a的搜索。由此，能够随着由用户对车辆VC1的驾驶，通过强化学习来更新关系规定数据DR。因此，无需使熟练者花费的工时过大就能够将与加速器操作量PA相应的节气门开度指令值TA*以及延迟量aop设定为在车辆VC1的行驶中适当的值。

这样，在车辆VC1出厂时与初始数据DR0相同的关系规定数据DR随着车辆VC1的行驶而被更新。在此，例如即使节气门开度TA相同，而在沉积物沉积于节气门14和/或进气通路12的情况下，进气通路12的流路截面面积也会变小，所以吸入空气量Ga会减少。因此，由关系规定数据DR规定的根据加速器操作量PA的时间序列数据而使期待收益最大化的节气门开度指令值TA*有可能以补偿由于沉积物沉积于节气门14所引起的进气通路12的流路截面面积的变化的方式被更新。这样，在关系规定数据DR被学习以补偿车辆VC1的部件的经年劣化的情况下，之后，若由于伴随保养维修而进行部件更换和/或清扫从而被进行车辆VC1的部件的功能恢复处置，则关系规定数据DR有可能会变为在确定使期待收益增大的行动方面不适当的数据。

于是，每当行驶距离RL增加预定量时，CPU72就将这时的关系规定数据DR作为已更新数据DR1进行存储。而且，CPU72在判定为进行了伴随保养维修的功能恢复处置的情况下，且在存在当行驶距离比当前的行驶距离RL短预定量ΔL以上时的已更新数据DR1的情况下，将该已更新数据DR1作为处置后用数据DRp，将设定节气门开度指令值TA*以及延迟量aop所使用的关系规定数据DR进行改写。在此，已更新数据DR1是初始数据DR0随着车辆VC1的实际的行驶而被更新后的数据，初始数据DR0是车辆VC1出厂时的关系规定数据DR。而且，因为已更新数据DR1是在比进行了功能恢复处置时短预定距离ΔL以上的行驶距离RL处的关系规定数据DR，所以认为是在进行功能恢复处置的时间点的部件劣化等的影响小的数据。因此，通过更新为已更新数据DR1，能够设为对于功能恢复处置后的车辆VC1来讲适当的关系规定数据DR。

根据以上说明的本实施方式，还能获得以下所述的作用效果。

(1)在不存在比进行了功能恢复处置时的行驶距离短预定距离ΔL以上的行驶距离RL处的已更新数据DR1的情况下，将初始数据DR0作为处置后用数据DRp，并由此改写关系规定数据DR。初始数据DR0是没有以补偿部件的劣化的方式被更新的数据。因此，通过改写为初始数据DR0，与在进行了功能恢复处置后仍继续使用功能恢复处置前的关系规定数据DR的情况相比，能够使用对于功能恢复处置后的节气门14和点火装置26的操作而言更适当的数据来操作它们。

(2)使行动价值函数Q的自变量包含了加速器操作量PA的时间序列数据。由此，与关于加速器操作量PA仅将单一的采样值作为自变量的情况相比，能够针对加速器操作量PA的各种变化细致地调整行动a的值。

(3)使行动价值函数Q的自变量包含了节气门开度指令值TA*本身。由此，例如与将对节气门开度指令值TA*的行为进行建模得到的模型式的参数等作为与节气门开度有关的自变量的情况相比，容易提高基于强化学习的搜索的自由度。

第2实施方式

以下，参照附图，以与第1实施方式的不同之处为中心，对第2实施方式进行说明。

图5表示在本实施方式中执行强化学习的控制系统的构成。此外，在图5中，为方便起见，对与图1所示的部件对应的部件标记同一标号。

在图5所示的车辆VC1内的ROM74中，除了控制程序74a之外还存储有学习用主程序74c。另外，车辆VC1内的存储装置76虽然存储有转矩输出映射数据DT和/或关系规定数据DR，但并没有存储初始数据DR0。另外，控制装置70具备通信机77。通信机77是用于经由车辆VC1外部的网络100与数据解析中心110进行通信的设备。

数据解析中心110解析从多个车辆VC1、VC2、……发送的数据。数据解析中心110具备CPU112、ROM114、可电改写的非易失性存储器(存储装置116)、外围电路118以及通信机117，它们能够通过局域网119进行通信。在ROM114中存储有学习用子程序114a。在存储装置116中存储有初始数据DR0。

图6表示本实施方式涉及的应对功能恢复处置的处理步骤。图6的左侧流程所示的处理通过CPU72执行图5所示的存储于ROM74的学习用主程序74c来实现。另外，图6的右侧流程所示的处理通过CPU112执行存储于ROM114的学习用子程序114a来实现。此外，在图6中，为方便起见，对与图4所示的处理对应的处理附加同一步骤编号。以下，按照时间序列，说明图6所示的处理。

在图6的左侧流程所示的一系列处理中，首先，CPU72操作通信机77，发送车辆VC1的识别信息ID、行驶距离RL和位置数据Pgps(S70)。

相对于此，如图6的右侧流程所示，CPU112接收识别信息ID、行驶距离RL以及位置数据Pgps(S80)。然后，CPU112将存储于存储装置116的与识别信息ID相关联的行驶距离RL以及位置数据Pgps更新为通过S80的处理所接收到的值(S82)。

另一方面，如图6的左侧流程所示，CPU72执行S54的处理，并在作出肯定判定的情况下，通过操作通信机77，发送请求作为在S12的处理中使用的关系规定数据DR而适当的处置后用数据DRp的信号(S72)。

相对于此，如图6的右侧流程所示，CPU112判定是否有处置后用数据DRp的请求(S84)。而且，CPU112在判定为有处置后用数据DRp的请求的情况下(S84：是)，搜索与发送了请求数据的信号的车辆VC1在位置上接近的、行驶距离短的车辆(S86)。在此，对于是在位置上接近的车辆这一条件，基于通过S82的处理所存储的各车辆的位置数据Pgps，设为与发送了请求数据的信号的车辆VC1的距离在预定距离以下的车辆。另外，作为行驶距离比发送了请求数据的信号的车辆VC1的行驶距离短的车辆，设为行驶距离比该车辆VC1的行驶距离RL短预定量ΔL以上、并且行驶距离与该车辆VC1的行驶距离RL之差在规定量ΔH以下的车辆。

在此，搜索与车辆VC1的距离在预定距离以下的车辆是因为，担心由于环境的差异等，位于与车辆VC1相距过远之处的车辆的情况下的关系规定数据DR不会成为对于车辆VC1而言在使期待收益增大方面适当的数据。另外，行驶距离RL比车辆VC1的行驶距离RL短预定量ΔL以上、但不短于规定量ΔH以上的车辆这一设定，是用于确定与车辆VC1的部件劣化之前的状态近似的车辆的设定。

CPU112在判定为存在符合的车辆的情况下(S88：是)，操作通信机117，提示符合的车辆进行关系规定数据DR的发送，并接收其发送的关系规定数据DR作为其他车辆规定数据DRa(S90)。接着，CPU72对处置后用数据DRp代入其他车辆规定数据DRa(S92)。相对于此，CPU72在判定为不存在符合的车辆的情况下(S88：否)，对处置后用数据DRp代入初始数据DR0(S94)。CPU112在S92、S94的处理完成的情况下，操作通信机117，向发出了请求的车辆VC1发送处置后用数据DRp(S96)。此外，CPU112在S96的处理完成的情况下或在S84的处理中作出否定判定的情况下，暂时结束图6的右侧流程所示的一系列处理。

对此，如图6的左侧流程所示，CPU72接收所发送来的处置后用数据DRp(S74)，执行S62的处理。此外，CPU72在S62的处理完成的情况下或在S54的处理中作出否定判定的情况下，暂时结束图6的左侧流程所示的一系列处理。

此外，CPU72以及ROM74为执行装置的一例，存储装置76为存储装置的一例。S10、S16的处理为取得处理的一例，S14的处理为操作处理的一例。S32～S36的处理为奖励计算处理的一例，S38～S44的处理为更新处理的一例。S54的处理为检测处理的一例，S62的处理为切换处理的一例。由学习程序74b中的执行S38～S44的处理的指令所规定的映射为更新映射的一例。过去数据维持处理的一例是S52的处理。处置后用数据请求处理的一例是S72的处理。处置后用数据接收处理的一例是S74的处理。CPU72以及ROM74是第1执行装置的一例。CPU112以及ROM114是第2执行装置的一例。S96的处理为处置后用数据发送处理的一例，S74的处理为处置后用数据接收处理的一例。

其他实施方式

此外，本实施方式可以如下进行变更来实施。本实施方式和以下的变更例可以在技术上不矛盾的范围内相互组合来实施。

关于检测处理

在上述实施方式中，设为在扫描工具连接于控制装置70的状态下，通过从扫描工具向控制装置70输入表示进行了功能恢复处置这一意思的信号，在控制装置70中检测这一意思，但作为检测处理，不限于此。例如也可以，在修理厂等进行了功能恢复处置的情况下，将这一意思经由网络100通知给数据解析中心110。即使在该情况下，也能够通过在数据解析中心110中执行遵照图6的右侧流程的S80、S82、S86～S96的处理的处理，向控制装置70发送处置后用数据DRp。

可是，作为检测处理，也不限于由控制装置70和数据解析中心110中的某一方执行。例如在如“关于车辆用控制系统”一栏中记载的那样具备便携终端而构成车辆用控制系统的情况下，便携终端也可以执行检测处理。在此，在由控制装置70、便携终端以及数据解析中心110构成车辆用控制系统的情况下，在便携终端执行检测处理后，将请求处置后用数据DRp的信号发送给数据解析中心110即可。

再者，作为检测处理，不限于直接检测由修理厂等发送的信号的处理。例如，在将进行了功能恢复处置这一意思的信号发送到便携终端并进而从便携终端向控制装置70发送该意思的信号的情况下，也可以将控制装置70接收来自便携终端的信号的处理作为检测处理。

关于过去数据维持处理

在上述实施方式中，行驶距离RL每增加预定距离，将这时的关系规定数据DR作为已更新数据DR1进行存储，但不限于此。例如也可以，根据将节气门开度TA的全开状态设为100％的情况下的每“1％”的吸入空气量Ga的平均值，将节气门14周围的沉积物的沉积量定量化，并在平均值变化了规定值的时间点，将这时的关系规定数据DR作为已更新数据DR1。在此，规定值设定为能够忽略对吸入空气量Ga的影响的上限值即可。

关于处置后用数据发送处理

作为在控制装置70执行切换处理方面所需的数据，不仅限于处置后用数据DRp。例如也可以，在如“关于检测处理”一栏中记载的那样，从修理厂经由网络100向数据解析中心110发送表示进行了功能恢复处置这一意思的信号的情况下，从数据解析中心110向控制装置70发送表示此意的数据以及处置后用数据DRp。

也可以删除S86～S92的处理，常态地将从数据解析中心110发送给控制装置70的处置后用数据DRp设为初始数据DR0。另外，例如也可以由数据解析中心110执行图2的S28的处理和遵照图4的S50、S52、S56～S62的处理的处理，并将通过S62的处理所生成的处置后用数据DRp发送给控制装置70。

关于行动变量

在上述实施方式中，作为作为行动变量的与节气门的开度有关的变量，例示了节气门开度指令值TA*，但不限于此。例如，也可以用浪费时间(停滞时间)以及二阶滞后滤波器来表现相对于加速器操作量PA的节气门开度指令值TA*的响应性，并将浪费时间和规定二阶滞后滤波器的两个变量的共计3个变量作为与节气门的开度有关的变量。但是，在该情况下，状态变量优选设为加速器操作量PA的每单位时间的变化量以取代加速器操作量PA的时间序列数据。

在上述实施方式中，作为作为行动变量的与点火正时有关的变量，例示了延迟量aop，但不限于此。例如，也可以是被作为KCS的校正对象的点火正时本身。

在上述实施方式中，作为行动变量，例示了与节气门的开度有关的变量以及与点火正时有关的变量，但不限于此。例如，也可以除了与节气门的开度有关的变量以及与点火正时有关的变量之外还使用燃料喷射量。另外，关于上述3个变量，也可以仅采用与节气门的开度有关的变量以及燃料喷射量、或仅采用与点火正时有关的变量以及燃料喷射量作为行动变量。再者，关于上述3个变量，也可以仅采用它们中的一个作为行动变量。

另外，在如“关于内燃机”一栏中记载的那样，是压缩着火式的内燃机的情况下，使用与喷射量有关的变量代替与节气门的开度有关的变量、使用与喷射正时有关的变量代替与点火正时有关的变量即可。此外，优选除了与喷射正时有关的变量之外，还加入与1个燃烧循环(cycle)中的喷射次数有关的变量和/或与1个燃烧循环内的用于一个汽缸的在时间序列上相邻的两个燃料喷射中的一方的结束定时与另一方的开始定时之间的时间间隔有关的变量。

另外，例如在变速装置50为有级变速装置的情况下，也可以将用于通过油压对离合器的接合状态进行调整的电磁阀的电流值等作为行动变量。另外，例如在如下述“关于车辆”一栏中记载的那样，采用混合动力车、电动汽车、燃料电池车作为车辆的情况下，也可以将旋转电机的转矩和/或输出作为行动变量。另外，例如在具备具有利用内燃机的曲轴的旋转动力进行旋转的压缩机的车载空调装置的情况下，也可以将压缩机的负载转矩包含于行动变量。另外，在具备电动式的车载空调装置的情况下，也可以将空调装置的功耗包含于行动变量。

关于状态

在上述实施方式中，将加速器操作量PA的时间序列数据设为了包括按等间隔采样得到的6个值的数据，但不限于此。只要是包括在互不相同的采样定时的2个以上的采样值的数据即可，此时，更优选为包括3个以上的采样值的数据、采样间隔为等间隔的数据。

作为与加速器操作量有关的状态变量，不限于加速器操作量PA的时间序列数据，例如如“关于行动变量”一栏中记载的那样，也可以是加速器操作量PA的每单位时间的变化量等。

另外，例如在如“关于行动变量”一栏中记载的那样，将电磁阀的电流值作为行动变量的情况下，在状态中包含变速装置的输入轴52的转速、输出轴54的转速、由电磁阀调整的油压即可。另外，例如在如“关于行动变量”一栏中记载的那样，将旋转电机的转矩和/或输出作为行动变量的情况下，在状态中包含电池的充电率、温度即可。另外，例如在如“关于行动变量”一栏中记载的那样，将压缩机的负载转矩、空调装置的功耗包含于行动的情况下，在状态中包含车室内的温度即可。

关于表形式的数据的降维

作为表形式的数据的降维方法，不限于在上述实施方式中例示的方法。例如因为很少有加速器操作量PA成为最大值的情况，所以也可以，对于加速器操作量PA成为规定量以上的状态，不定义行动价值函数Q，对加速器操作量PA成为规定量以上的情况下的节气门开度指令值TA*等另行进行适配。另外，例如也可以从行动的可取的值去除节气门开度指令值TA*成为规定值以上的值等来进行降维。

关于关系规定数据

在上述实施方式中，将行动价值函数Q设为了表形式的函数，但不限于此。例如也可以使用函数逼近器。

例如，也可以取代使用行动价值函数Q，而用以状态s及行动a为自变量并以取行动a的概率为因变量的函数逼近器来表现策略π，根据奖励r，将确定函数逼近器的参数更新。

关于操作处理

例如在如“关于关系规定数据”一栏中记载的那样将行动价值函数设为函数逼近器的情况下，通过将成为上述实施方式中的表形式的函数的自变量的关于行动的离散的值的全部组与状态s一起输入到行动价值函数Q，选择使行动价值函数Q最大化的行动a即可。

另外，例如在如“关于关系规定数据”一栏中记载的那样，将策略π设为以状态s及行动a为自变量并以取行动a的概率为因变量的函数逼近器的情况下，基于由策略π表示的概率选择行动a即可。

关于更新映射

在S38～S44的处理中，例示了利用ε软同策略型蒙特卡洛方法的处理，但不限于此。例如也可以是利用异策略型(off-policy type)蒙特卡洛方法的处理。不过，也不限于蒙特卡洛方法，例如也可以使用异策略型TD(Temporal-difference，时序分差)法，另外例如也可以使用如SARSA(state-action-reward-state'-action')法的同策略型TD法，另外例如作为同策略型的学习，也可以使用资格迹方法(eligibility trace method)。

另外，例如在如“关于关系规定数据”一栏中记载的那样，使用函数逼近器表现策略π并基于奖励r直接更新策略π的情况下，使用策略梯度法等构成更新映射即可。

另外，不限于仅将行动价值函数Q和策略π中的某一方作为基于奖励r的直接的更新对象。例如，也可以如Actor Critic(演员评判家)法那样对行动价值函数Q和策略π分别进行更新。另外，在Actor Critic法中，不限于此，例如也可以代替行动价值函数Q而将价值函数V作为更新对象。

此外，关于确定策略π的“ε”，不限于固定值，也可以按照根据学习的进行程度预先确定的规则进行变更。

关于奖励计算处理

在图3的处理中，根据条件(i)和条件(ii)的逻辑与是否为真而给予了奖励，但不限于此。例如，也可以执行根据是否满足条件(i)来给予奖励的处理、和根据是否满足条件(ii)来给予奖励的处理。另外，例如关于根据是否满足条件(i)来给予奖励的处理、和根据是否满足条件(ii)来给予奖励的处理这两个处理，也可以仅执行它们中的任一个处理。

另外，例如也可以取代在满足条件(i)的情况下一律给予相同的奖励，而设为在转矩Trq与转矩指令值Trq*之差的绝对值小的情况下比该绝对值大的情况下给予较大的奖励的处理。另外，例如也可以取代在不满足条件(i)的情况下一律给予相同的奖励，而设为在转矩Trq与转矩指令值Trq*之差的绝对值大的情况下比该绝对值小的情况下给予较小的奖励的处理。

另外，例如也可以取代在满足条件(ii)的情况下一律给予相同的奖励，而设为根据加速度Gx的大小来使奖励的大小可变的处理。另外，例如也可以取代在不满足条件(ii)的情况下一律给予相同的奖励，而设为根据加速度Gx的大小来使奖励的大小可变的处理。

在上述实施方式中，根据是否满足与驾驶性能(driveability)有关的基准而给予了奖励r，但作为与驾驶性能有关的基准，不限于上述的基准，例如也可以根据噪音、振动强度是否满足基准来设定。不过不限于此，也可以为以下四个中的任意的一个以上：上述加速度是否满足基准；转矩Trq的跟随性是否满足基准；噪音是否满足基准；和振动强度是否满足基准。

作为奖励计算处理，也不限于根据是否满足与驾驶性能有关的基准来给予奖励r。例如，也可以是在燃料消耗率满足基准的情况下比不满足基准的情况下给予较大的奖励的处理。另外，例如也可以是在排气特性满足基准的情况下比不满足基准的情况下给予较大的奖励的处理。此外，也可以包括以下三个处理中的两个或者三个：在满足与驾驶性能有关的基准的情况下比不满足该基准的情况下给予较大的奖励的处理；在燃料消耗率满足基准的情况下比不满足基准的情况下给予较大的奖励的处理；和在排气特性满足基准的情况下比不满足基准的情况下给予较大的奖励的处理。

另外，例如在如“关于行动变量”一栏中记载的那样，将变速装置50的电磁阀的电流值作为行动变量的情况下，例如在奖励计算处理中包括以下的(a)～(c)这三个处理中的至少一个处理即可。

(a)是以下处理：在变速装置的变速比的切换所需的时间为预定时间以内的情况下比该所需的时间超过预定时间的情况下给予较大的奖励。

(b)是以下处理：在变速装置的输入轴52的转速的变化速度的绝对值为输入侧预定值以下的情况下比该绝对值超过输入侧预定值的情况下给予较大的奖励。

(c)是以下处理：在变速装置的输出轴54的转速的变化速度的绝对值为输出侧预定值以下的情况下比该绝对值超过输出侧预定值的情况下给予较大的奖励。另外，例如在如“关于行动变量”一栏中记载的那样，将旋转电机的转矩和/或输出作为行动变量的情况下，也可以包括以下处理：在电池的充电率在预定范围内的情况下比充电率不在预定范围内的情况下给予较大的奖励的处理；在电池的温度在预定范围内的情况下比温度不在预定范围内的情况下给予较大的奖励的处理。另外，例如在如“关于行动变量”一栏中记载的那样，将压缩机的负载转矩和/或空调装置的功耗包含于行动变量的情况下，也可以加上在车室内的温度在预定范围内的情况下比温度不在预定范围内的情况下给予较大的奖励的处理。

关于车辆用控制系统

作为车辆用控制系统，不限于由控制装置70以及数据解析中心110构成的系统。例如也可以使用用户所持的便携终端代替数据解析中心110，由控制装置70以及便携终端构成车辆用控制系统。另外，例如也可以由控制装置70、便携终端以及数据解析中心110构成车辆用控制系统。

关于执行装置

作为执行装置，不限于具备CPU72(112)和ROM74(114)并执行软件处理的装置。例如，也可以具备对在上述实施方式中被进行软件处理的内容的至少一部分进行硬件处理的例如ASIC等专用的硬件电路。即，执行装置是以下的(a)～(c)中的某个构成即可。

(a)具备按照程序执行上述处理的全部的处理装置、和存储程序的ROM等程序存储装置。

(b)具备按照程序执行上述处理的一部分的处理装置以及程序存储装置、和执行其余处理的专用硬件电路。

(c)具备执行上述处理的全部的专用硬件电路。在此，具备处理装置以及程序存储装置的软件执行装置、和专用硬件电路也可以为多个。

关于存储装置

在上述实施方式中，将存储关系规定数据DR的存储装置与存储学习程序74b和控制程序74a的存储装置(ROM74)设为有别的存储装置，但不限于此。

关于内燃机

作为内燃机，不限于具备向进气通路12喷射燃料的进气口喷射阀作为燃料喷射阀的内燃机，也可以是具备直接向燃烧室24喷射燃料的缸内喷射阀的内燃机，另外，例如也可以是具备进气口喷射阀和缸内喷射阀双方的内燃机。

作为内燃机，不限于火花点火式内燃机，例如也可以是使用轻油等作为燃料的压缩着火式内燃机等。

关于车辆

作为车辆，不限于推力生成装置仅为内燃机的车辆，例如也可以是具备内燃机和旋转电机的所谓的混合动力车辆。另外，例如也可以是不具备内燃机而具备旋转电机作为推力生成装置的所谓的电动汽车和燃料电池车。

Claims

1.一种车辆用控制装置，其特征在于，

具备存储装置和执行装置，

所述存储装置构成为存储关系规定数据，所述关系规定数据是规定所述车辆的状态与行动变量的关系的数据，所述行动变量是与所述车辆内的电子设备的操作有关的变量，

所述执行装置构成为：

执行取得处理，该取得处理取得构成为检测所述车辆的状态的传感器的检测值；

执行操作处理，该操作处理基于由所述关系规定数据和通过所述取得处理所取得的所述检测值而确定的所述行动变量的值，操作所述电子设备；

执行奖励计算处理，该奖励计算处理基于通过所述取得处理所取得的所述检测值，在所述车辆的特性满足基准的情况下，与所述车辆的特性不满足所述基准的情况相比，给予较大的奖励；

执行更新处理，该更新处理将基于通过所述取得处理所取得的所述检测值的所述车辆的状态、所述电子设备的操作中所使用了的所述行动变量的值、和与所述操作对应的所述奖励作为向预先确定的更新映射的输入，更新所述关系规定数据；

执行检测处理，该检测处理检测进行了所述车辆内的部件中的、因通过所述操作处理进行的操作而产生的给所述车辆的状态带来的影响的部件的功能恢复处置这一情况；

执行切换处理，该切换处理在通过所述检测处理检测到进行了功能恢复处置的情况下，将所述操作处理所要利用的所述关系规定数据切换为处置后用数据，所述处置后用数据是在所述功能恢复处置被进行的时间点的预定期间前的数据；以及

基于所述更新映射，输出以使按照所述关系规定数据来操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据。

2.根据权利要求1所述的车辆用控制装置，

所述切换处理包括如下处理：将伴随所述车辆的行驶而通过所述更新处理进行了更新的所述关系规定数据作为所述处置后用数据。

3.根据权利要求1或2所述的车辆用控制装置，

所述执行装置构成为执行过去数据维持处理，在所述过去数据维持处理中，有别于通过所述更新处理进行更新的所述关系规定数据，使在到预定的条件成立为止通过所述更新处理进行更新并且在所述预定的条件成立之后避免通过所述更新处理进行的更新的所述关系规定数据成为存储于所述存储装置的状态，

所述切换处理包括如下处理：使用通过所述过去数据维持处理而维持了存储于所述存储装置的状态的所述关系规定数据，作为所述处置后用数据。

4.根据权利要求1或2所述的车辆用控制装置，

所述执行装置构成为执行：处置后用数据请求处理，在通过所述检测处理检测到进行了所述功能恢复处置的情况下，发送请求所述处置后用数据的信号；以及处置后用数据接收处理，接收作为所述处置后用数据请求处理的结果而发送来的所述处置后用数据，

所述切换处理包括如下处理：将所述操作处理所要利用的所述关系规定数据切换为接收到的所述处置后用数据。

5.一种车辆用控制系统，其特征在于，

具备存储装置和执行装置，

所述存储装置存储有关系规定数据，所述关系规定数据是规定所述车辆的状态与行动变量的关系的数据，所述行动变量是与所述车辆内的电子设备的操作有关的变量，

所述执行装置包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置，

所述第1执行装置构成为执行取得处理，该取得处理取得构成为检测所述车辆的状态的传感器的检测值，

所述第1执行装置构成为执行操作处理，该操作处理基于由所述关系规定数据和通过所述取得处理所取得的所述检测值而确定的所述行动变量的值，操作所述电子设备，

所述第1执行装置构成为执行检测处理，该检测处理检测进行了所述车辆内的部件中的、因通过所述操作处理进行的操作而产生的给所述车辆的状态带来的影响的部件的功能恢复处置这一情况，

所述第2执行装置构成为执行处置后用数据发送处理，该处置后用数据发送处理在通过所述检测处理检测到进行了所述功能恢复处置的情况下发送处置后用数据，所述处置后用数据是在所述功能恢复处置被进行的时间点的预定期间前的数据，

所述第1执行装置构成为执行处置后用数据接收处理，该处置后用数据接收处理接收通过所述处置后用数据发送处理而发送来的数据。

6.根据权利要求5所述的车辆用控制系统，

所述第1执行装置构成为执行所述检测处理以及处置后用数据请求处理，所述处置后用数据请求处理在通过所述检测处理检测到进行了所述功能恢复处置的情况下，发送请求所述处置后用数据的信号。

7.根据权利要求5所述的车辆用控制系统，

所述处置后用数据发送处理包括如下处理：将与进行了所述功能恢复处置的所述车辆相比所述部件的劣化程度较低的车辆的所述关系规定数据作为所述处置后用数据来发送。

8.根据权利要求6所述的车辆用控制系统，

9.根据权利要求5至8中任一项所述的车辆用控制系统，

所述第1执行装置构成为执行将所述关系规定数据更新的更新处理。

10.一种车辆控制方法，所述车辆包括存储装置和执行装置，所述存储装置构成为存储关系规定数据，所述关系规定数据是规定所述车辆的状态与行动变量的关系的数据，所述行动变量是与所述车辆内的电子设备的操作有关的变量，所述方法的特征在于，包括：

由所述执行装置执行取得处理，该取得处理取得构成为检测所述车辆的状态的传感器的检测值；

由所述执行装置执行操作处理，该操作处理基于由所述关系规定数据和通过所述取得处理所取得的所述检测值而确定的所述行动变量的值，操作所述电子设备；

由所述执行装置执行奖励计算处理，该奖励计算处理基于通过所述取得处理所取得的所述检测值，在所述车辆的特性满足基准的情况下，与所述车辆的特性不满足所述基准的情况相比，给予较大的奖励；

由所述执行装置执行更新处理，该更新处理将基于通过所述取得处理所取得的所述检测值的所述车辆的状态、所述电子设备的操作中所使用了的所述行动变量的值、和与所述操作对应的所述奖励作为向预先确定的更新映射的输入，更新所述关系规定数据；

由所述执行装置执行检测处理，该检测处理检测进行了所述车辆内的部件中的、因通过所述操作处理进行的操作而产生的给所述车辆的状态带来的影响的部件的功能恢复处置这一情况；

由所述执行装置执行切换处理，该切换处理在通过所述检测处理检测到进行了功能恢复处置的情况下，将所述操作处理所要利用的所述关系规定数据切换为处置后用数据，所述处置后用数据是在所述功能恢复处置被进行的时间点的预定期间前的数据；以及

由所述执行装置基于所述更新映射，输出以使按照所述关系规定数据来操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据。