CN112682203A

CN112682203A - 车辆用控制装置、车辆用控制系统、车辆用学习装置、车辆用控制方法以及存储介质

Info

Publication number: CN112682203A
Application number: CN202011090364.5A
Authority: CN
Inventors: 桥本洋介; 片山章弘; 大城裕太; 杉江和纪; 冈尚哉
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2019-10-18
Filing date: 2020-10-13
Publication date: 2021-04-20
Anticipated expiration: 2040-10-13
Also published as: JP6705547B1; US11453375B2; CN112682203B; JP2021067201A; US20210114580A1

Abstract

提供一种车辆用控制装置、车辆用控制系统、车辆用学习装置、车辆用控制方法以及存储介质。切换处理在通过检测处理检测到进行了功能恢复处置的情况下，将在操作处理中要利用的关系规定数据切换为处置后用数据。切换处理包括如下处理：使用初始数据来作为处置后用数据，所述初始数据是执行伴随着车辆行驶的更新处理之前的关系规定数据。

Description

车辆用控制装置、车辆用控制系统、车辆用学习装置、车辆用控制方法以及存储介质

技术领域

本公开涉及车辆用控制装置、车辆用控制系统、车辆用学习装置、车辆用控制方法以及存储介质。

背景技术

例如日本特开2016－6327号公报记载了一种控制装置，其基于对加速踏板的操作量进行滤波处理后的值，对作为搭载于车辆的内燃机的操作部的节气门进行操作。

然而，上述滤波需要被用于根据加速踏板的操作量来将搭载于车辆的内燃机的节气门的操作量设定为适当的操作量。由此，节气门的操作量的适配需要熟练人员花费许多工时。这样，以往对于与车辆的状态相应的车辆内的电子设备的操作量等的适配，熟练人员花费了许多工时。

发明内容

以下，对本公开的各方面进行记载。

方面1.车辆用控制装置具备执行装置和存储装置，在所述存储装置中存储关系规定数据，所述关系规定数据对车辆的状态与行动变量的关系进行规定，所述行动变量是与所述车辆内的电子设备的操作有关的变量。所述执行装置构成为执行：取得处理，取得对所述车辆的状态进行检测的传感器的检测值；操作处理，基于所述行动变量的值来对所述电子设备进行操作，所述行动变量的值是根据通过所述取得处理取得的所述检测值和所述关系规定数据而确定的值。奖励算出处理，基于通过所述取得处理取得的所述检测值，在所述车辆的特性满足基准的情况下，与所述车辆的特性不满足该基准的情况相比，给予较大的奖励。更新处理，将基于通过所述取得处理取得的所述检测值的所述车辆的状态、在所述电子设备的操作中使用了的所述行动变量的值以及与该操作对应的所述奖励作为向预先确定的更新映射的输入，从而对所述关系规定数据进行更新。检测处理，对进行了功能恢复处置这一情况进行检测，所述功能恢复处置是所述车辆内的部件中的、因基于所述操作处理的操作产生的对所述车辆的状态带来影响的部件的功能恢复处置。切换处理，在通过所述检测处理检测到进行了功能恢复处置的情况下，将在所述操作处理中要利用的所述关系规定数据切换为处置后用数据。所述更新映射输出以使按照所述关系规定数据操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据。所述切换处理包括如下处理：使用初始数据来作为所述处置后用数据，所述初始数据是执行伴随着所述车辆行驶的所述更新处理之前的所述关系规定数据。

在上述构成中，通过算出伴随着电子设备的操作的奖励，能够掌握通过该操作能得到什么样的奖励。并且，通过基于奖励来通过进行了强化学习的更新映射对关系规定数据进行更新，能够将车辆的状态与行动变量的关系设定为在车辆的行驶中适当的关系。因此，能够在将车辆的状态与行动变量的关系设定为在车辆的行驶中适当的关系时，削减对熟练人员所要求的工时。

然而，在车辆内的部件劣化等情况下，通过强化学习，关系规定数据被更新为在使用了劣化的部件时适当的数据。因此，在之后进行功能恢复处置的情况下，关系规定数据有可能不会在增大期待收益上成为适当的数据。于是，在上述构成中，在进行功能恢复处置的情况下，通过切换处理，将在操作处理中要利用的关系规定数据切换为初始数据。由此，能够抑制由进行功能恢复处置导致的期待收益的降低。

方面2.在上述方面1所述的车辆用控制装置中，所述执行装置构成为执行过去数据维持处理，所述过去数据维持处理为如下处理：有别于通过所述更新处理进行更新的所述关系规定数据，使在到预定条件成立为止通过所述更新处理进行更新并且在所述预定条件成立之后避免通过所述更新处理进行的更新的所述关系规定数据成为存储于所述存储装置的状态。所述切换处理包括如下处理：选择是使所述处置后用数据为通过所述过去数据维持处理只限于在所述预定条件成立之前被进行了基于所述更新处理的更新的所述关系规定数据、还是使所述处置后用数据为所述初始数据。

对伴随着车辆的行驶而通过更新处理进行了更新的关系规定数据、且在部件劣化为需要功能恢复处理的程度以前未被进行更新的数据进行考虑。该数据在功能恢复处理后指定与车辆的状态相应的更适当的行动变量的值的可能性比开始车辆的行驶之前的初始数据的该可能性高。于是，在上述构成中，选择通过过去数据维持处理只限于预定的条件成立之前被进行了更新的关系规定数据和初始数据中的某一个来作为处置后用数据。由此，例如与使处置后用数据一律为开始车辆的行驶之前的初始数据的情况相比，能够基于切换处理后的关系规定数据，设定与功能恢复处置后的车辆的状态相应的更适当的行动变量的值。

方面3.在上述方面1或者2所述的车辆用控制装置中，所述执行装置构成为在通过所述检测处理检测为进行了所述功能恢复处置的情况下执行：处置后用数据请求处理，发送对所述处置后用数据进行请求的信号；处置后用数据接收处理，接收作为所述处置后用数据请求处理的结果而被发送来的所述处置后用数据。所述切换处理包括如下处理：将在所述操作处理中要利用的所述关系规定数据切换为所接收到的所述处置后用数据。

在上述构成中，执行处置后用数据请求处理和处置后用数据接收处理。因此，例如即使是在控制装置未保持处置后用数据的情况下，也能够取得处置后用数据。

方面4.提供一种车辆用控制系统，具备上述方面1或者方面2所记载的所述车辆用控制装置中的所述执行装置和所述存储装置，所述执行装置包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置。所述第2执行装置构成为在通过所述检测处理检测到进行了功能恢复处置的情况下，至少执行发送所述处置后用数据的处置后用数据发送处理。所述第1执行装置构成为至少执行所述取得处理、所述操作处理以及处置后用数据接收处理。所述处置后用数据接收处理接收通过所述处置后用数据发送处理发送的数据。

在上述构成中，有别于车载装置的第2执行装置执行处置后用数据发送处理。因此，例如即使是在第1执行装置未保持处置后用数据的情况下，也能够取得处置后用数据。此外，第2执行装置是有别于车载装置的装置，这意味着第2执行装置不是车载装置。

方面5.在上述方面4所述的车辆用控制系统中，所述第1执行装置构成为执行所述检测处理和处置后用数据请求处理。所述处置后用数据请求处理在通过所述检测处理检测为进行了所述功能恢复处置的情况下，发送对所述处置后用数据进行请求的信号。

在上述构成中，执行处置后用数据请求处理和处置后用数据接收处理。因此，例如即使是在第1执行装置中未保持处置后用数据的情况下，也能够取得处置后用数据。

方面6.在上述方面4或者方面5所述的车辆用控制系统，所述更新处理由所述第1执行装置执行。

方面7.一种车辆用控制装置，具备上述方面4～方面6中任一项所记载的所述车辆用控制系统中的所述第1执行装置。

方面8.一种车辆用学习装置，具备上述方面4～方面6中任一项所记载的所述车辆用控制系统中的所述第2执行装置。

方面9.作为执行上述各方面所记载的各种处理的车辆用控制方法来实现。

方面10.作为存储有使各种装置执行上述各方面所记载的各种处理的程序的非瞬时性的计算机能读取的记录介质来实现。

附图说明

图1是表示第1实施方式涉及的控制装置及其驱动系统的图。

图2是表示该实施方式涉及的控制装置执行的处理的步骤的流程图。

图3是表示该实施方式涉及的控制装置执行的处理的一部分的详细步骤的流程图。

图4是表示该实施方式涉及的控制装置执行的处理的步骤的流程图。

图5是表示第2实施方式涉及的车辆用控制系统的结构的图。

图6的(a)部分和(b)部分是表示图5的车辆用控制系统执行的处理的步骤的流程图。

具体实施方式

＜第1实施方式＞

以下，参照图1～图4对车辆用控制装置的第1实施方式进行说明。

在图1中示出本实施方式涉及的车辆VC1的驱动系统和控制装置的结构。

如图1所示，在内燃机10的进气通路12，从上游侧开始依次设置有节气门14和燃料喷射阀16。被吸入到进气通路12的空气、从燃料喷射阀16喷射的燃料伴随着进气门18的开阀而流入到由气缸20和活塞22区划的燃烧室24。在燃烧室24内，燃料与空气的混合气伴随着点火装置26的火花放电而被供于燃烧，通过燃烧产生的能量经由活塞22被变换为曲轴28的旋转能量。被供于燃烧的混合气伴随着排气门30的开阀而被作为排气排出到排气通路32。在排气通路32设置有作为对排气进行净化的后处理装置的催化剂34。

在曲轴28经由具备锁止离合器42的转矩转换器40而能够以机械的方式连结有变速装置50的输入轴52。变速装置50是使作为输入轴52的转速与输出轴54的转速之比的变速比为可变的装置。在输出轴54以机械的方式连结有驱动轮60。

控制装置70将内燃机10作为控制对象，为了对作为其控制量的转矩、排气成分比率等进行控制，对节气门14、燃料喷射阀16以及点火装置26等的内燃机10的操作部进行操作。另外，控制装置70将转矩转换器40作为控制对象，为了对锁止离合器42的接合状态进行控制，对锁止离合器42进行操作。另外，控制装置70将变速装置50作为控制对象，为了对作为其控制量的变速比进行控制，对变速装置50进行操作。此外，在图1中记载了节气门14、燃料喷射阀16、点火装置26、锁止离合器42以及变速装置50各自的操作信号MS1～MS5。

控制装置70为了控制量的控制，对由空气流量计80检测的吸入空气量Ga、由节气门传感器82检测的节气门14的开口度(节气门开口度TA)、以及曲轴角传感器84的输出信号Scr进行参照。另外，控制装置70对由加速器传感器88检测的加速踏板86的踏下量(加速器操作量PA)、由加速度传感器90检测的车辆VC1的前后方向上的加速度Gx进行参照。另外，控制装置70对基于全球定位系统(GPS92)的位置数据Pgps进行参照。

控制装置70具备CPU72、ROM74、能够电重写的非易失性存储器(存储装置76)以及外围电路78，那些部件能够经由本地网络79进行通信。在此，外围电路78包括生成对内部的动作进行规定的时钟信号的电路、电源电路、复位电路等。

在ROM74中存储有控制程序74a和学习程序74b。另一方面，在存储装置76存储有对加速器操作量PA、节气门开口度TA的指令值(节气门开口度指令值TA＊)以及点火装置26的延迟量aop的关系进行规定的关系规定数据DR和其初始数据DR0。在此，延迟量aop是相对于预先确定的基准点火正时的延迟量，基准点火正时是MBT点火正时和爆震极限点中的延迟侧的正时。MBT点火正时是能得到最大转矩的点火正时(最大转矩点火正时)。另外，爆震极限点是在使用爆震极限高的高辛烷值燃料时在所设想的最佳条件下能够落在能容许爆震的等级以内的点火正时的提前极限值。另外，在存储装置76存储有转矩输出映射数据DT。由转矩输出映射数据DT规定的转矩输出映射是将曲轴28的转速NE、填充效率η以及点火正时作为输入、输出转矩Trq的映射。

在图2中示出本实施方式涉及的控制装置70执行的处理的步骤。图2所示的处理通过CPU72例如以预定周期反复执行存储于ROM74的控制程序74a和学习程序74b来实现。此外，以下通过在开头赋予了“S”的数字来表示各处理的步骤编号。

在图2所示的一系列处理中，CPU72首先取得由加速器操作量PA的6个采样值“PA(1)、PA(2)、……、PA(6)构成的时间序列数据来作为状态s(S10)。在此，构成时间序列数据的各采样值是在互不相同的定时采样到的值。在本实施方式中，通过以一定的采样周期进行采样的情况下的、在时间序列上相互相邻的6个采样值构成时间序列数据。

接着，CPU72按照关系规定数据DR确定的策略π，设定包括与通过S10的处理取得的状态s相应的节气门开口度指令值TA＊和延迟量aop的行动a(S12)。

在本实施方式中，关系规定数据DR是确定行动价值函数Q和策略π的数据。在本实施方式中，行动价值函数Q是表示与状态s和行动a的8维的自变量相应的期待收益的值的、表型式的函数。另外，策略π确定如下规则：在提供了状态s时，虽然优先选择自变量成为所提供的状态s的行动价值函数Q中的、期待收益成为最大的行动a(贪婪(greedy)行动)，但是以预定的概率ε选择除此之外的行动a。

详细而言，本实施方式涉及的行动价值函数Q的自变量可取的值的数量是通过人的见解等削减掉状态s和行动a可取的值的全部组合中的一部分后的数量。即，例如对于加速器操作量PA的时间序列数据中的相邻的两个采样值中的一个成为加速器操作量PA的最小值、另一个成为最大值那样的状况，认为是无法由基于人的加速踏板86的操作产生的，不定义行动价值函数Q。在本实施方式中，通过基于人的见解等的维度削减，将定义行动价值函数Q的状态s可取的值限制为10的4次方个以下、更优选为10的3次方个以下。

接着，CPU72基于所设定的节气门开口度指令值TA＊和延迟量aop，通过向节气门14输出操作信号MS1，从而对节气门开口度TA进行操作，并且，通过向点火装置26输出操作信号MS3，从而对点火正时进行操作(S14)。在此，在本实施方式中例示将节气门开口度TA反馈控制为节气门开口度指令值TA＊。由此，即使节气门开口度指令值TA＊为相同的值，操作信号MS1也可能成为互不相同的信号。另外，例如在进行周知的爆震控制(KCS)等的情况下，点火正时被设为通过KCS对使基准点火正时延迟了延迟量aop后的值进行了反馈修正而得到的值。在此，基准点火正时通过CPU72根据曲轴28的转速NE和填充效率η来被以可变的方式进行设定。此外，转速NE通过CPU72基于曲轴角传感器84的输出信号Scr来算出。另外，填充效率η通过CPU72基于转速NE和吸入空气量Ga来算出。

接着，CPU72取得内燃机10的转矩Trq、对于内燃机10的转矩指令值Trq＊、以及加速度Gx(S16)。在此，CPU112通过将转速NE、填充效率η以及点火正时输入到转矩输出映射，算出转矩Trq。另外，CPU72根据加速器操作量PA来设定转矩指令值Trq＊。

接着，CPU72对过渡标志F是否为“1”进行判定(S18)。过渡标志F在为“1”的情况下表示处于过渡运转时，在为“0”的情况下表示不处于过渡运转时。CPU72在判定为过渡标志F为“0”的情况下(S18：否)，对加速器操作量PA的每单位时间的变化量ΔPA的绝对值是否为预定量ΔPAth以上进行判定(S20)。在此，变化量ΔPA例如设为S20的处理的执行定时的最新的加速器操作量PA与相对于该定时的单位时间之前的加速器操作量PA之差即可。

CPU72在判定为变化量ΔPA的绝对值为预定量ΔPAth以上的情况下(S20：是)，将“1”代入到过渡标志F(S22)。

与此相对，CPU72在判定为过渡标志F为“1”的情况下(S18：是)，判定从S22的处理的执行定时起是否经过了预定期间(S24)。在此，预定期间设为到加速器操作量PA的每单位时间的变化量ΔPA的绝对值成为比预定量ΔPAth小的规定量以下的状态持续预定时间为止的期间。CPU72在判定为经过了预定期间的情况下(S24：是)，将“0”代入到过渡标志F(S26)。

CPU72在S22、S26的处理完成的情况下，作为一个情节(episode)已结束，通过强化学习来对行动价值函数Q进行更新(S28)。

在图3中示出S28的处理的详细。

在图3所示的一系列处理中，CPU72取得由最近结束的情节中的转矩指令值Trq＊、转矩Trq以及加速度Gx的三个采样值的组构成的时间序列数据和状态s以及行动a的时间序列数据(S30)。在此，对于最近的情节，在接着S22的处理而进行S30的处理的情况下，是过渡标志F持续为“0”的期间，在接着S26的处理而进行S30的处理的情况下，是过渡标志F持续为“1”的期间。

在图3中示出括号中的数字不同的变量是不同的采样定时的变量的值。例如，转矩指令值Trq＊(1)和转矩指令值Trq＊(2)的采样定时互不相同。另外，将属于最近的情节的行动a的时间序列数据作为行动集合Aj，将属于该情节的状态s的时间序列数据定义为状态集合Sj。

接着，CPU72对属于最近的情节的任意的转矩Trq与转矩指令值Trq＊之差的绝对值为规定量ΔTrq以下之意的条件(A)与加速度Gx为下限值GxL以上且为上限值GxH以下之意的条件(B)的逻辑积是否为真进行判定(S32)。

在此，CPU72根据情节开始时的加速器操作量PA的每单位时间的变化量ΔPA来以可变的方式设定规定量ΔTrq。即，CPU72在变化量ΔPA的绝对值大的情况下，作为是与过渡时有关的情节，将规定量ΔTrq设定为比稳态时的情况下的该规定量ΔTrq大的值。

另外，CPU72根据情节开始时的加速器操作量PA的变化量ΔPA来以可变的方式设定下限值GxL。即，CPU72在为与过渡时有关的情节且变化量ΔPA为正的情况下，将下限值GxL设定为比与稳态时有关的情节的情况下的该下限值GxL大的值。另外，CPU72在为与过渡时有关的情节且变化量ΔPA为负的情况下，将下限值GxL设定为比与稳态时有关的情节的情况下的该下限值GxL小的值。

另外，CPU72根据情节开始时的加速器操作量PA的每单位时间的变化量ΔPA来以可变的方式设定上限值GxH。即，CPU72在为与过渡时有关的情节且变化量ΔPA为正的情况下，将上限值GxH设定为比与稳态时有关的情节的情况下的该上限值GxH大的值。另外，CPU72在为与过渡时有关的情节且变化量ΔPA为负的情况下，将上限值GxH设定为比与稳态时有关的情节的情况下的该上限值GxH小的值。

CPU72在判定为逻辑积为真的情况下(S32：是)，将“10”代入到奖励r(S34)，另一方面，在判定为假的情况下(S32：否)，将“－10”代入到奖励r(S36)。CPU72在S34、S36的处理完成的情况下，对存储于图1所示的存储装置76的关系规定数据DR进行更新。在本实施方式中，在关系规定数据DR的更新中使用ε软同策略型蒙特卡罗法(ε-soft on-policy MonteCarlo method)。

即，CPU72对通过上述S30的处理读出的由各状态和所对应的各行动的组确定的收益R(Sj，Aj)分别加上奖励r(S38)。在此，“R(Sj，Aj)”是对将状态集合Sj的要素之一作为状态、将行动集合Aj的要素之一作为行动的收益R进行了总括的记载。接着，对通过上述S30的处理读出的由各状态和所对应的各行动的组确定的收益R(Sj，Aj)分别进行平均化，将平均后的收益R(Sj，Aj)代入到所对应的行动价值函数Q(Sj，Aj)(S40)。在此，对于收益R的平均化，设为将通过S38的处理算出的收益R除以对进行了S38的处理的次数加上预定数而得到的数的处理即可。此外，收益R的初始值设为所对应的行动价值函数Q的初始值即可。

接着，CPU72关于通过上述S30的处理读出的状态，分别将如下行动代入到行动Aj＊(S42)，该行动为所对应的行动价值函数Q(Sj，A)中的、期待收益成为最大值时的节气门开口度指令值TA＊和延迟量aop的组。在此，“A”表示可取的任意的行动。此外，行动Aj＊根据通过上述S30的处理读出的状态的种类而成为个别的值，但在此将记载简化，用同一标号进行记载。

此外，CPU72在S44的处理完成的情况下暂时结束图3所示的一系列处理。

返回图2，CPU72在S28的处理完成的情况下、在S20、S24的处理中作出否定判定的情况下，暂时结束图2所示的一系列处理。此外，S10～S26的处理通过CPU72执行控制程序74a来实现，S28的处理通过CPU72执行学习程序74b来实现。另外，车辆VC1出厂时的关系规定数据DR与初始数据DR0相同。初始数据DR0设为通过用试验台对车辆的行驶进行模拟等、并且执行与图2所示的处理同样的处理而预先进行了学习的数据。

在图4中示出本实施方式涉及的控制装置70执行的处理的步骤。图4所示的处理通过CPU72例如以预定周期反复执行存储于ROM74的学习程序74b来实现。

在图4所示的一系列处理中，CPU72首先对车辆VC1的行驶距离RL是否成为了预定距离进行判定(S50)。在此，预定距离例如设为1万km、2万km、3万km、……等的通过预定量的倍数表示的多个距离。CPU72在判定为车辆VC1的行驶距离RL是预定距离的情况下(S50：是)，将那时的关系规定数据DR作为已更新数据DR1存储于存储装置76(S52)。此外，在将上述预定量设为“1万km”的情况下，若是行驶距离RL成为2万km，则作为已更新数据DR1，两个不同的数据被存储于存储装置76。即，每当判定为行驶距离RL是预定距离时，那时的关系规定数据DR被作为新的已更新数据DR1存储于存储装置76，由此，已更新数据DR1不断增加。

CPU72在S52的处理完成的情况下、在S50的处理中作出否定判定的情况下对是否进行了功能恢复处置进行判定(S54)。在本实施方式中设想为：在进行伴随着车辆VC1的维护的、搭载于车辆VC1的部件的功能恢复处置的情况下，从扫描工具向控制装置70输入进行了功能恢复处置之意的信号。因此，CPU72在进行了功能恢复处置之意的信号被输入到CPU72的情况下，判定为进行了功能恢复处置。

CPU72在判定为进行了功能恢复处置的情况下(S54：是)，对是否存在如下时间点的已更新数据DR1进行判定(S56)，该时间点是处于比当前的行驶距离RL短预定量ΔL以上的行驶距离的时间点。并且，CPU72在判定为存在该时间点的已更新数据DR1的情况下(S56：是)，将该时间点的已更新数据DR1代入到处置后用数据DRp(S58)。此外，在存储装置76中存储有成为通过S56的处理作出肯定判定的对象的多个数据来作为已更新数据DR1的情况下，CPU72将其中的行驶距离RL最长时的数据代入到处置后用数据DRp。与此相对，CPU72在判定为不存在该时间点的已更新数据DR1的情况下(S56：否)，将初始数据DR0代入到处置后用数据DRp(S60)。

CPU72在S58、S60的处理完成的情况下，将S12的处理中所利用的关系规定数据DR重写为处置后用数据DRp(S62)。

此外，CPU72在S62的处理完成的情况下、在S54的处理中作出否定判定的情况下暂时结束图4所示的一系列处理。

在此，对本实施方式的作用和效果进行说明。

CPU72伴随着用户的加速踏板86的操作，取得加速器操作量PA的时间序列数据，按照策略π，设定包括节气门开口度指令值TA＊和延迟量aop的行动a。在此，CPU72基本上基于关系规定数据DR所规定的行动价值函数Q，选择使期待收益为最大的行动a。但是，CPU72通过以预定的概率ε选择使期待收益最大化的行动a以外的行动，进行使期待收益最大化的行动a的搜索。由此，能够伴随着用户的车辆VC1的驾驶，通过强化学习对关系规定数据DR进行更新。因此，能够不会使熟练人员的工时过度增大地将与加速器操作量PA相应的节气门开口度指令值TA＊和延迟量aop设定为在车辆VC1的行驶中适当的值。

这样在车辆VC1出厂时与初始数据DR0相同的关系规定数据DR被伴随着车辆VC1的行驶而不断进行更新。在此，例如即使是节气门开口度TA相同，在沉积物沉积于节气门14、进气通路12的情况下，进气通路12的流路截面积也会变小。由此，吸入空气量Ga变小。因此，由关系规定数据DR规定的、根据加速器操作量PA的时间序列数据使期待收益最大化的节气门开口度指令值TA＊有可能被进行更新以使得对由沉积物沉积于节气门14引起的进气通路12的流路截面积的变化进行补偿。这样，在关系规定数据DR被进行学习以使得对车辆VC1的部件的经年劣化进行补偿的情况下，然后，当通过伴随着维护来进行部件更换、清扫来进行车辆VC1的部件的功能恢复处置时，在关系规定数据DR确定使期待收益增大的行动的方面，有可能不会成为适当的数据。

于是，CPU72以判定为进行了功能恢复处置为条件，将初始数据DR0作为处置后用数据DRp，由此对关系规定数据DR进行了重写。初始数据DR0是未为了对部件的劣化进行补偿而进行更新的数据。因此，通过重写为初始数据DR0，与在进行了功能恢复处置也继续保持不变地使用功能恢复处置前的关系规定数据DR的情况相比时，能够使用对于功能恢复处置后的节气门14、点火装置26的操作来说更适当的数据来对它们进行操作。

根据以上说明的本实施方式，能进一步得到以下记载的作用效果。

(1)CPU72每当行驶距离RL增加预定量时(S50：是)，存储那时的关系规定数据DR来作为已更新数据DR1(S52)。并且，CPU72在判定为进行了功能恢复处置的情况下(S54：是)，在存在比当前的行驶距离RL短预定量ΔL以上的行驶距离时的已更新数据DR1时(S56：是)，将其作为处置后用数据DRp(S58)，对在节气门开口度指令值TA＊和延迟量aop的设定中所使用的关系规定数据DR进行了重写(S62)。在此，已更新数据DR1是伴随着车辆VC1的实际的行驶对作为车辆VC1出厂时的关系规定数据DR的初始数据DR0进行了更新后的数据。并且，已更新数据DR1是比进行了功能恢复处置时短预定距离ΔL以上的行驶距离RL下的关系规定数据DR，因此，认为是进行功能恢复处置的时间点的部件的劣化等的影响小的数据。因此，通过更新为已更新数据DR1，能够设为对于功能恢复处置后的车辆VC1来说适当的关系规定数据DR。

(2)行动价值函数Q的自变量包含了加速器操作量PA的时间序列数据。由此，例如与关于加速器操作量PA仅将单一的采样值作为自变量的情况相比，能够相对于加速器操作量PA的各种各样的变化，精细地对行动a的值进行调整。

(3)行动价值函数Q的自变量包含了节气门开口度指令值TA＊自身。由此，例如与将对节气门开口度指令值TA＊的行为进行了模型化的模型式的参数等作为与节气门开口度有关的自变量的情况相比，容易提高基于强化学习的搜索的自由度。

＜第2实施方式＞

以下，以与第1实施方式的不同点为中心，参照图5和图6来对第2实施方式进行说明。

在图5中示出在本实施方式中执行强化学习的控制系统的结构。此外，在图5中，为了便于说明，对与图1所示的部件对应的部件标记同一标号。

除了控制程序74a之外，在图5所示的车辆VC1内的ROM74中还存储有学习用主程序74c。另外，车辆VC1内的存储装置76存储有转矩输出映射数据DT、关系规定数据DR，但未存储初始数据DR0。另外，控制装置70具备通信机77。通信机77是用于经由车辆VC1外部的网络100与数据解析中心110进行通信的设备。

数据解析中心110对从多个车辆VC1、VC2、……发送的数据进行解析。数据解析中心110具备CPU112、ROM114、以及能够电重写的非易失性存储器(存储装置116)、外围电路118以及通信机117，那些部件能够通过本地网络119进行通信。在ROM114中存储有学习用子程序114a。在存储装置116存储有初始数据DR0。

在图6中示出本实施方式涉及的对功能恢复处置进行应对的处理步骤。图6的(a)部分所示的处理通过CPU72执行存储于图5所示的ROM74的学习用主程序74c来实现。另外，图6的(b)部分所示的处理通过CPU112执行存储于ROM114的学习用子程序114a来实现。此外，在图6中，关于与图4所示的处理对应的处理，为了便于说明，标记了同一步骤编号。以下，沿着时间序列对图6所示的处理进行说明。

在图6的(a)部分所示的一系列处理中，CPU72首先对通信机77进行操作，发送车辆VC1的识别信息ID、行驶距离RL以及位置数据Pgps(S70)。

与此相对，如图6的(b)部分所示，CPU112接收识别信息ID、行驶距离RL以及位置数据Pgps(S80)。并且，CPU112将存储于存储装置116的与识别信息ID关联的行驶距离RL和位置数据Pgps更新为通过S80的处理接收到的值(S82)。

另一方面，如图6的(a)部分所示，CPU72执行S54的处理，在作出肯定判定的情况下，通过对通信机77进行操作，发送对适于作为在S12的处理中使用的关系规定数据DR的处置后用数据DRp进行请求的信号(S72)。

与此相对，如图6的(b)部分所示，CPU112对是否存在处置后用数据DRp的请求进行判定(S84)。并且，CPU112在判定为存在处置后用数据DRp的请求的情况下(S84：是)，对在位置上距发送了进行请求的信号的车辆VC1近的车辆且行驶距离短的车辆进行检索(S86)。在此，对于在位置上近的车辆这一条件，基于通过S82的处理存储的各车辆的位置数据Pgps，设为与发送了进行请求的信号的车辆VC1的距离为预定距离以下的车辆。另外，作为行驶距离比发送了进行请求的信号的车辆VC1短的车辆，设为行驶距离比该车辆VC1的行驶距离RL短预定量ΔL以上、且行驶距离与该车辆VC1的行驶距离RL之差为规定量ΔH以下的车辆。

在此，对与车辆VC1的距离为预定距离以下的车辆进行检索的理由是因为：对于位于与车辆VC1的距离十分大的位置的车辆的情况下的关系规定数据DR，由于与车辆VC1的环境的不同等，恐怕对于车辆VC1来说在增大期待收益的方面不是适当的数据。另外，设为了行驶距离RL比车辆VC1的行驶距离RL短预定量ΔL以上、但不短规定量ΔH以上的车辆的理由是为了确定与车辆VC1的部件劣化之前的状态近似的车辆的设定。

CPU112在判定为存在符合的车辆的情况下(S88：是)，通过对通信机117进行操作，对所符合的车辆催促关系规定数据DR的发送，接收从所符合的车辆发送来的关系规定数据DR来作为其他车辆规定数据DRa(S90)。接着，CPU72将其他车辆规定数据DRa代入到处置后用数据DRp(S92)。与此相对，CPU72在判定为不存在符合的车辆的情况下(S88：否)，将初始数据DR0代入到处置后用数据DRp(S94)。CPU112在S92、S94的处理完成的情况下，通过对通信机117进行操作，向发出了处置后用数据DRp的请求的车辆VC1发送处置后用数据DRp(S96)。此外，CPU112在S96的处理完成的情况下、在S84的处理中作出否定判定的情况下暂时结束图6的(b)部分所示的一系列处理。

与此相对，如图6的(a)部分所示，CPU72接收被发送来的处置后用数据DRp(S74)，执行S62的处理。

此外，CPU72在S62的处理完成的情况下、在S54的处理中作出否定判定的情况下，暂时结束图6的(a)部分所示的一系列处理。

＜对应关系＞

上述实施方式中的事项与上述“发明内容”一栏所记载的事项的对应关系为如以下所述。以下，按“发明内容”一栏所记载的方面的各编号表示对应关系。

[1]执行装置对应于CPU72和ROM74，存储装置对应于存储装置76。取得处理对应于S10、S16的处理，操作处理对应于S14的处理。奖励算出处理对应于S32～S36的处理，更新处理对应于S38～S44的处理。检测处理对应于S54的处理，切换处理对应于S62的处理。更新映射对应于通过学习程序74b中的执行S38～S44的处理的指令来规定的映射。

[2]过去数据维持处理对应于S52的处理。

[3]、[5]处置后用数据请求处理对应于S72的处理，处置后用数据接收处理对应于S74的处理。

[4]、[6]～[8]第1执行装置对应于CPU72和ROM74，第2执行装置对应于CPU112和ROM114。处置后用数据发送处理对应于S96的处理，处置后用数据接收处理对应于S74的处理。

＜其他实施方式＞

此外，本实施方式可以如以下那样进行变更来实施。本实施方式以及以下的变更例可以在技术上不矛盾的范围内相互组合来实施。

·“关于检测处理”

在上述实施方式中设为了在控制装置70连接有扫描工具的状态下，通过从扫描工具向控制装置70输入进行了功能恢复处置之意的信号，用控制装置70对该之意进行检测，但作为检测处理，不限于此。例如，也可以在修理工厂等进行了功能恢复处置的情况下，经由网络100向数据解析中心110通知该之意。即使是在该情况下，也能够通过在数据解析中心110中执行依照图6的(b)部分的S80、82、S86～S96的处理的处理，向控制装置70发送处置后用数据DRp。

当然，作为检测处理，也不限于控制装置70和数据解析中心110中的任一个执行的处理。例如，如下述“关于车辆用控制系统”一栏所记载的那样，也可以在具备便携终端来构成车辆用控制系统的情况下，便携终端执行检测处理。在此，在通过控制装置70、便携终端以及数据解析中心110构成车辆用控制系统的情况下，在便携终端执行了检测处理之后，便携终端向数据解析中心110发送对处置后用数据DRp进行请求的信号即可。

进一步，作为检测处理，不限于直接对修理工厂等的信号进行检测的处理。例如，也可以将如下处理作为检测处理，该处理为：向便携终端发送进行了功能恢复处置之意的信号，在进一步被便携终端向控制装置70发送该之意的信号的情况下，控制装置70接收来自便携终端的信号。

·“关于过去数据维持处理”

在上述实施方式中，每当行驶距离RL增加预定距离时存储了那时的关系规定数据DR来作为已更新数据DR1，但不限于此。例如，也可以通过使节气门开口度TA的全开状态为100％的情况下的每“1％”的吸入空气量Ga的平均值，对节气门14周围的沉积物的沉积量进行定量化，在平均值变化了规定值的时间点，将那时的关系规定数据DR作为已更新数据DR1。在此，规定值设定为能够忽略对吸入空气量Ga的影响的上限值即可。

·“关于处置用数据发送处理”

作为控制装置70执行切换处理上所需要的数据，不仅限于处置后用数据DRp。例如，也可以如上述“关于检测处理”一栏所记载的那样，在进行了功能恢复处置之意的信号被从修理工厂经由网络100而发送给数据解析中心110的情况下，从数据解析中心110向控制装置70发送表示该之意的数据和处置后用数据DRp。

也可以删除S86～S92的处理，总是将从数据解析中心110发送至控制装置70的处置后用数据DRp作为初始数据DR0。

另外，例如也可以设为通过数据解析中心110执行图2的S28的处理和依照图4的S50、S52、S56～S62的处理的处理，向控制装置70发送通过S62的处理生成的处置后用数据DRp。

·“关于初始数据”

作为初始数据DR0，不限于在试验台等进行了强化学习的数据。例如也可以是在试验行驶用的车辆的行驶时进行了强化学习的数据，该试验行驶用的车辆是与所出厂的车辆不同的车辆。当然，不限于通过强化学习生成的数据，例如也可以是基于已经通过以往方法进行了适配后的车辆中的控制逻辑所生成的数据。即使是在该情况下，在车辆出厂后通过强化学习进行更新，由此也能够不使熟练人员的工时增加地生成能够使期待收益比初始数据DR0的期待收益增大的数据。

·“关于行动变量”

在上述实施方式中，作为与作为行动变量的节气门的开口度有关的变量，例示了节气门开口度指令值TA＊，但不限于此。例如，也可以用无用时间和二阶滞后滤波器表现对于加速器操作量PA的节气门开口度指令值TA＊的响应性，将无用时间、规定二阶滞后滤波器的两个变量的合计三个变量作为与节气门的开口度有关的变量。但是，在该情况下，对于状态变量，优选代替加速器操作量PA的时间序列数据而设为加速器操作量PA的每单位时间的变化量。

在上述实施方式中，作为与作为行动变量的点火正时有关的变量，例示了延迟量aop，但不限于此。例如，也可以是设为KCS的修正对象的点火正时自身。

在上述实施方式中，作为行动变量，例示了与节气门的开口度有关的变量和与点火正时有关的变量，但不限于此。例如，在与节气门的开口度有关的变量和与点火正时有关的变量之外，也可以使用燃料喷射量。另外，关于那些三个变量，也可以仅采用与节气门的开口度有关的变量和燃料喷射量来作为行动变量，或者，也可以仅采用与点火正时有关的变量和燃料喷射量来作为行动变量。进一步，关于那些三个变量，也可以仅采用那些中的一个来作为行动变量。

另外，如下述“关于内燃机”一栏所记载的那样，在为压缩着火式的内燃机的情况下，代替与节气门的开口度有关的变量，使用与喷射量有关的变量，并且，代替与点火正时有关的变量，使用与喷射正时有关的变量即可。此外，优选在与喷射正时有关的变量之外，还加上与1个燃烧循环中的喷射次数有关的变量、与如下的时间间隔有关的变量，该时间间隔为1个燃烧循环中的用于一个汽缸的在时间序列的上相邻的2个燃料喷射中的一方的结束定时与另一方的开始定时之间的时间间隔。

另外，例如在变速装置50为有级变速装置的情况下，也可以将用于通过油压对离合器的接合状态进行调整的电磁阀的电流值等作为行动变量。

另外，例如如下述“关于车辆”一栏所记载的那样，也可以在采用混合动力车、电动汽车、燃料电池车来作为车辆的情况下，将旋转电机的转矩、输出作为行动变量。另外，例如也可以在具备具有压缩机的车载空调装置的情况下，将压缩机的负荷转矩包含于行动变量，该压缩机利用内燃机的曲轴的旋转动力来进行旋转。另外，也可以在具备电动式的车载空调装置的情况下，将空调装置的消耗电力包含于行动变量。

·“关于状态”

在上述实施方式中，将加速器操作量PA的时间序列数据作为了包括以等间隔采样的6个值的数据，但不限于此。只要是包括互不相同的采样定时的2个以上的采样值的数据即可，此时，更优选是包括3个以上的采样值的数据、采样间隔为等间隔的数据。

作为与加速器操作量有关的状态变量，不限于加速器操作量PA的时间序列数据，例如也可以如上述“关于行动变量”一栏所记载的那样为加速器操作量PA的每单位时间的变化量等。

另外，例如如上述“关于行动变量”一栏所记载的那样，在将电磁阀的电流值作为行动变量的情况下，在状态中包含变速装置的输入轴52的转速、输出轴54的转速、通过电磁阀调整的油压即可。另外，例如如上述“关于行动变量”一栏所记载的那样，在将旋转电机的转矩、输出作为行动变量的情况下，在状态中包含电池的充电率、温度即可。另外，例如如上述“关于行动变量”一栏所记载的那样，在将压缩机的负荷转矩、空调装置的消耗电力包含于行动的情况下，在状态中包含车室内的温度即可。

·“关于表形式的数据的维度削减”

作为表形式的数据的维度削减方法，不限于在上述实施方式中例示的方法。例如加速器操作量PA很少会成为最大值。由此，关于加速器操作量PA成为规定量以上的状态，也可以不定义行动价值函数Q，加速器操作量PA成为规定量以上的情况下的节气门开口度指令值TA＊等也可以另行进行适配。另外，例如也可以通过从行动可取的值去掉节气门开口度指令值TA＊成为规定值以上的值等来进行维度削减。

·“关于关系规定数据”

在上述实施方式中将行动价值函数Q设为了表形式的函数，但不限于此。例如，也可以使用函数近似器。

例如，代替使用行动价值函数Q，通过在将状态s和行动a作为自变量的同时将采取行动a的概率作为因变量的函数近似器来表现策略π。也可以根据奖励r来对确定函数近似器的参数进行更新。

·“关于操作处理”

例如如上述“关于关系规定数据”一栏所记载的那样，在将行动价值函数作为函数近似器的情况下，设为如以下那样即可。关于与上述实施方式中的表型式的函数的成为自变量的行动有关的离散的值的全部组，通过与状态s一起输入到行动价值函数Q，选择使行动价值函数Q最大化的行动a即可。

另外，例如如上述“关于关系规定数据”一栏所记载的那样，在将策略π设为在将状态s和行动a作为自变量的同时将采取行动a的概率作为因变量的函数近似器的情况下，基于由策略π表示的概率，选择行动a即可。

·“关于更新映射”

在S38～S44的处理中，例示了基于ε软同策略型蒙特卡罗法的处理，但不限于此。例如，也可以是基于异策略型蒙特卡罗法(off-policy Monte Carlo method)的处理。当然，不限于蒙特卡罗法，例如也可以使用异策略型TD法，另外，例如也可以使用如SARSA法那样的同策略型TD法，另外，例如也可以使用资格迹法(eligibility trace method)来作为同策略型的学习。

另外，例如如上述“关于关系规定数据”一栏所记载的那样，在使用函数近似器来表现策略π、基于奖励r直接对函数近似器进行更新的情况下，使用策略梯度法等来构成更新映射即可。

另外，不限于仅将行动价值函数Q和策略π中的某一方作为基于奖励r的直接的更新对象。例如，也可以如Actor-Critic法那样分别对行动价值函数Q和策略π进行更新。另外，在Actor-Critic法中，不限于此，例如也可以代替行动价值函数Q而将价值函数V作为更新对象。

此外，关于确定策略π的“ε”，不限于固定值，也可以根据学习的进行程度，按照预先确定的规则来进行变更。

·“关于奖励算出处理”

在图3的S32的处理中，根据条件(A)和条件(B)的逻辑积是否为真来提供了奖励，但不限于此。例如，也可以执行根据是否满足条件(A)来提供奖励的处理、和根据是否满足条件(B)来提供奖励的处理。另外，例如关于根据是否满足条件(A)来提供奖励的处理、和根据是否满足条件(B)来提供奖励的处理这两个处理，也可以仅执行那些中的任一个处理。

另外，例如也可以代替在满足条件(A)的情况下一律提供相同的奖励，设为如下处理：在转矩Trq与转矩指令值Trq＊之差的绝对值小的情况下，提供比该差的绝对值大的情况下更大的奖励。另外，例如也可以代替在不满足条件(A)的情况下一律提供相同的奖励，设为如下处理：在转矩Trq与转矩指令值Trq＊之差的绝对值大的情况下，提供比该差的绝对值小的情况下更小的奖励。

另外，例如也可以代替在满足条件(B)的情况下一律提供相同的奖励，设为如下处理：根据加速度Gx的大小，使奖励的大小为可变。另外，例如也可以代替在不满足条件(B)的情况下一律提供相同的奖励，设为如下处理：根据加速度Gx的大小，使奖励的大小为可变。

在上述实施方式中，根据是否满足与驾驶性能有关的基准来提供了奖励r。作为与驾驶性能有关的基准，不限于上述的基准，例如也可以根据噪声、振动强度是否满足基准来进行设定。当然，不限于此，上述加速度是否满足基准、转矩Trq的跟随性是否满足基准、噪声是否满足基准、振动强度是否满足基准这4个中的任意一个以上也可以为与驾驶性能有关的基准。

作为奖励算出处理，也不限于根据是否满足与驾驶性能有关的基准来提供奖励r的处理。例如也可以是在燃料消耗率满足基准的情况下提供比不满足该基准的情况下大的奖励的处理。另外，例如也可以是在排气特性满足基准的情况下提供比不满足该基准的情况下大的奖励的处理。此外，也可以包括在满足与驾驶性能有关的基准的情况下提供比不满足该基准的情况下大的奖励的处理、在燃料消耗率满足基准的情况下提供比不满足该基准的情况下大的奖励的处理、以及在排气特性满足基准的情况下提供比不满足该基准的情况下大的奖励的处理这三个处理中的两个或者三个。

另外，例如在如上述“关于行动变量”一栏所记载的那样将变速装置50的电磁阀的电流值作为行动变量的情况下，例如在奖励算出处理中包含以下(a)～(c)的三个处理中的至少一个处理即可。

(a)是如下处理：在变速装置的变速比的切换所需要的时间处于预定时间以内的情况下，提供比超过预定时间的情况下大的奖励。

(b)是如下处理：在变速装置的输入轴52的转速的变化速度的绝对值为输入侧预定值以下的情况下，提供比超过输入侧预定值的情况下大的奖励。

(c)是如下处理：在变速装置的输出轴54的转速的变化速度的绝对值为输出侧预定值以下的情况下，提供比超过输出侧预定值的情况下大的奖励。

另外，例如在如上述“关于行动变量”一栏所记载的那样将旋转电机的转矩、输出作为行动变量的情况下，也可以包括如下处理：在电池的充电率处于预定范围内的情况下提供比不处于该预定范围内的情况下大的奖励的处理；在电池的温度处于预定范围内的情况下提供比不处于该预定范围内的情况下大的奖励的处理。另外，例如在如上述“关于行动变量”一栏所记载的那样将压缩机的负荷转矩、空调装置的消耗电力包含于行动变量的情况下，也可以添加如下处理：在车室内的温度处于预定范围内的情况下提供比不处于该预定范围内的情况下大的奖励的处理。

·“关于车辆用控制系统”

作为车辆用控制系统，不限于由控制装置70和数据解析中心110构成的系统。例如，也可以代替数据解析中心110，使用用户所持有的便携终端，通过控制装置70和便携终端构成车辆用控制系统。另外，例如也可以通过控制装置70、便携终端以及数据解析中心110构成车辆用控制系统。

·“关于执行装置”

作为执行装置，不限于具备CPU72(112)和ROM74(114)来执行软件处理的装置。例如，也可以具备对在上述实施方式中被设为了软件处理的单元的至少一部分进行硬件处理的例如ASIC等的专用的硬件电路。即，执行装置是以下的(a)～(c)中的任一结构即可。(a)具备按照程序执行全部的上述处理的处理装置和存储程序的ROM等的程序保存装置(可以包括非瞬时性的计算机能够读取的存储介质)。(b)具备按照程序来执行上述处理的一部分的处理装置以及程序保存装置、和执行其余的处理的专用的硬件电路。(c)具备执行全部的上述处理的专用的硬件电路。在此，具备处理装置和程序保存装置的软件执行装置、专用的硬件电路也可以是多个。

·“关于存储装置”

在上述实施方式中，将存储关系规定数据DR的存储装置和存储学习程序74b、控制程序74a的存储装置(ROM74)设为了不同的存储装置，但不限于此。

·“关于内燃机”

作为内燃机，不限于具备向进气通路12喷射燃料的端口喷射阀来作为燃料喷射阀的内燃机，也可以是具备向燃烧室24直接喷射燃料的缸内喷射阀的内燃机。另外，例如也可以是具备端口喷射阀和缸内喷射阀这两方的内燃机。

作为内燃机，不限于火花点火式内燃机，也可以是例如使用轻油等来作为燃料的压缩着火式内燃机等。

·“关于车辆”

作为车辆，不限于推力生成装置仅为内燃机的车辆，例如也可以是具备内燃机和旋转电机的所谓的混合动力车辆。另外，例如也可以是不具备内燃机、而是具备旋转电机来作为推力生成装置的所谓的电动汽车、燃料电池车。

Claims

1.一种车辆用控制装置，具备执行装置和存储装置，

所述存储装置存储有关系规定数据，所述关系规定数据对车辆的状态与行动变量的关系进行规定，所述行动变量是与所述车辆内的电子设备的操作有关的变量，

所述执行装置构成为执行：

取得处理，取得对所述车辆的状态进行检测的传感器的检测值；

操作处理，基于所述行动变量的值来对所述电子设备进行操作，所述行动变量的值是根据通过所述取得处理取得的所述检测值和所述关系规定数据而确定的值；

奖励算出处理，基于通过所述取得处理取得的所述检测值，在所述车辆的特性满足基准的情况下，与所述车辆的特性不满足该基准的情况相比，给予较大的奖励；

更新处理，将基于通过所述取得处理取得的所述检测值的所述车辆的状态、在所述电子设备的操作中使用了的所述行动变量的值以及与该操作对应的所述奖励作为向预先确定的更新映射的输入，从而对所述关系规定数据进行更新；

检测处理，对进行了功能恢复处置这一情况进行检测，所述功能恢复处置是所述车辆内的部件中的、因基于所述操作处理的操作产生的对所述车辆的状态带来影响的部件的功能恢复处置；以及

切换处理，在通过所述检测处理检测到进行了所述功能恢复处置的情况下，将在所述操作处理中要利用的所述关系规定数据切换为处置后用数据，

所述更新映射输出以使按照所述关系规定数据操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据，

所述切换处理包括如下处理：使用初始数据来作为所述处置后用数据，所述初始数据是执行伴随着所述车辆行驶的所述更新处理之前的所述关系规定数据。

2.根据权利要求1所述的车辆用控制装置，

所述执行装置构成为执行过去数据维持处理，所述过去数据维持处理为如下处理：有别于通过所述更新处理进行更新的所述关系规定数据，使在到预定条件成立为止通过所述更新处理进行更新并且在所述预定条件成立之后避免通过所述更新处理进行的更新的所述关系规定数据成为存储于所述存储装置的状态，

所述切换处理包括如下处理：选择是使所述处置后用数据为通过所述过去数据维持处理只限于在所述预定条件成立之前被进行了基于所述更新处理的更新的所述关系规定数据、还是使所述处置后用数据为所述初始数据。

3.根据权利要求1或者2所述的车辆用控制装置，

所述执行装置构成为在通过所述检测处理检测为进行了所述功能恢复处置的情况下执行：

处置后用数据请求处理，发送对所述处置后用数据进行请求的信号；和

处置后用数据接收处理，接收作为所述处置后用数据请求处理的结果而被发送来的所述处置后用数据，

所述切换处理包括如下处理：将在所述操作处理中要利用的所述关系规定数据切换为所接收到的所述处置后用数据。

4.一种车辆用控制系统，具备权利要求1或者2所述的所述车辆用控制装置中的所述执行装置和所述存储装置，

所述执行装置包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置，

所述第2执行装置构成为在通过所述检测处理检测到进行了功能恢复处置的情况下，至少执行发送所述处置后用数据的处置后用数据发送处理，

所述第1执行装置构成为至少执行所述取得处理、所述操作处理以及处置后用数据接收处理，所述处置后用数据接收处理接收通过所述处置后用数据发送处理发送的数据。

5.根据权利要求4所述的车辆用控制系统，

所述第1执行装置构成为执行所述检测处理和处置后用数据请求处理，

所述处置后用数据请求处理在通过所述检测处理检测为进行了所述功能恢复处置的情况下，发送对所述处置后用数据进行请求的信号。

6.根据权利要求4或者5所述的车辆用控制系统，

所述更新处理由所述第1执行装置执行。

7.一种车辆用控制装置，具备权利要求4～6中任一项所述的所述车辆用控制系统中的所述第1执行装置。

8.一种车辆用学习装置，具备权利要求4～6中任一项所述的所述车辆用控制系统中的所述第2执行装置。

9.一种车辆用控制方法，由执行装置和存储装置执行，所述车辆用控制方法包括：

通过所述存储装置存储关系规定数据，所述关系规定数据对车辆的状态与行动变量的关系进行规定，所述行动变量是与所述车辆内的电子设备的操作有关的变量；

通过所述执行装置，

取得对所述车辆的状态进行检测的传感器的检测值；

基于所述行动变量的值对所述电子设备进行操作，所述行动变量的值是根据所取得的所述检测值和所述关系规定数据而确定的值；

基于所取得的所述检测值，在所述车辆的特性满足基准的情况下，与所述车辆的特性不满足该基准的情况相比，给予较大的奖励；

将基于所取得的所述检测值的所述车辆的状态、在所述电子设备的操作中使用了的所述行动变量的值以及与该操作对应的所述奖励作为向预先确定的更新映射的输入，从而对所述关系规定数据进行更新；

对进行了功能恢复处置这一情况进行检测，所述功能恢复处置是所述车辆内的部件中的、因所述电子设备的操作产生的对所述车辆的状态带来影响的部件的功能恢复处置；以及

在检测到进行了所述功能恢复处置的情况下，将在所述电子设备的操作中要利用的所述关系规定数据切换为处置后用数据，

所述更新映射输出以使按照所述关系规定数据来操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据，

对所述关系规定数据进行切换包括：使用初始数据来作为所述处置后用数据，所述初始数据是执行伴随着所述车辆行驶的所述关系规定数据的更新之前的所述关系规定数据。

10.一种非瞬时性的计算机能够读取的存储介质，所述存储介质存储有使执行装置和存储装置执行车辆用控制处理的程序，

所述车辆用控制处理包括：

通过所述执行装置，

取得对所述车辆的状态进行检测的传感器的检测值；