CN112682196A

CN112682196A - 车辆用控制装置、车辆用控制系统、以及车辆用学习装置

Info

Publication number: CN112682196A
Application number: CN202011091210.8A
Authority: CN
Inventors: 桥本洋介; 片山章弘; 大城裕太; 杉江和纪; 冈尚哉
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2019-10-18
Filing date: 2020-10-13
Publication date: 2021-04-20
Anticipated expiration: 2040-10-13
Also published as: US20210114607A1; US11603111B2; CN112682196B

Abstract

一种车辆用控制装置、车辆用控制系统以及车辆用学习装置。所述车辆用控制装置具备处理电路(processing circuitry)以及存储装置，在存储装置中，存储有规定车辆的状态和行动变量之间的关系的关系规定数据，处理电路构成为执行：取得车辆的状态的取得处理；基于行动变量的值操作电子设备的操作处理；基于车辆的状态，给予奖励的奖励算出处理；以及将车辆的状态、行动变量的值、以及奖励用作向更新映射的输入，更新关系规定数据的更新处理，在关系规定数据指定的行动变量的值为第1值时，按照该第1值通过操作处理操作电子设备的处理，被设为在第1状况中能够执行，并且在第2状况中无法执行。

Description

车辆用控制装置、车辆用控制系统、以及车辆用学习装置

技术领域

本公开涉及车辆用控制装置、车辆用控制系统、以及车辆用学习装置。

背景技术

例如在日本特开2016－6327号公报中记载了如下控制装置：基于通过滤波器(filter)对加速踏板的操作量进行处理而得到的值，操作作为搭载于车辆的内燃机的操作部的节流阀(Throttle valve)。

上述滤波器需要根据加速踏板的操作量将搭载于车辆的内燃机的节流阀的操作量设定为适当的操作量。因此，为了滤波器的适配，本领域技术人员需要花费很多工时。这样，以往，为了与车辆的状态相应的车辆内的电子设备的操作量等的适配，本领域技术人员花费了很多工时。

发明内容

以下，记载本公开的多个方式及其作用效果。

技术方案1.根据本公开的一个技术方案，提供一种车辆用控制装置。所述车辆用控制装置具备处理电路(processing circuitry)以及存储装置，在所述存储装置中，存储有规定车辆的状态和行动变量的关系的关系规定数据，所述行动变量是与所述车辆内的电子设备的操作有关的变量，所述处理电路构成为执行：取得处理，取得基于传感器的检测值的所述车辆的状态；操作处理，基于由所述关系规定数据和通过所述取得处理取得的所述车辆的状态确定的所述行动变量的值，操作所述电子设备；奖励算出处理，是基于通过所述取得处理取得的所述车辆的状态给予奖励的处理，且在所述车辆的特性满足基准的情况下所给予的所述奖励比所述车辆的特性不满足所述基准的情况下所给予的所述奖励大；以及更新处理，将通过所述取得处理取得的所述车辆的状态、在所述电子设备的操作中使用了的所述行动变量的值、以及与该操作对应的所述奖励用作向预先确定的更新映射的输入，更新所述关系规定数据，所述更新映射输出以使在按照所述关系规定数据操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式更新了的所述关系规定数据，在所述关系规定数据指定的所述行动变量的值为第1值时通过所述操作处理按照该第1值操作所述电子设备的处理，被设为在第1状况中能够执行、且在第2状况中无法执行。

在上述构成中，通过算出伴随电子设备的操作的奖励，能够掌握通过该操作能够获得什么样的奖励。而且，基于奖励，通过按照强化学习后的更新映射，更新关系规定数据。由此，能够将车辆的状态和行动变量之间的关系设定为在车辆的行驶中适当的关系。因此，在将车辆的状态和行动变量之间的关系设定为在车辆的行驶中适当的关系时，能够削减要求本领域技术人员的工时。

在进行强化学习的情况下，有可能导致行动变量的值从对于车辆的控制来说适当的值大幅偏离。因此，在上述构成中，作为在第1状况中能够采用的行动变量的值的第1值，被设定为在第2状况中不被采用，并且将第2状况设定为使用第1值并不适当的状况。由此，能够抑制进行不适当的操作。

技术方案2.在上述技术方案1记载的车辆用控制装置中，也可以是，与所述第1状况对应的所述车辆的状态为第1状态，与所述第2状况对应的所述车辆的状态为第2状态，在所述关系规定数据中，对于所述第1状态，将所述第1值定义为所述行动变量的值，另一方面，对于所述第2状态，不将所述第1值定义为所述行动变量的值。

在上述构成中，通过将关系规定数据自身设为在第2状况中不允许第1值的数据，能够抑制使用了关系规定数据指定的行动变量的值进行的操作成为不适当的操作这一情况。

技术方案3.在上述技术方案1记载的车辆用控制装置中，也可以是，所述操作处理包括限制处理，所述限制处理中，在所述关系规定数据指定的所述行动变量的值为第1值的情况下，在所述第1状况中允许进行按照所述第1值操作所述电子设备的处理，并且，在所述关系规定数据指定的所述行动变量的值为第1值的情况下，在所述第2状况中不允许进行按照所述第1值操作所述电子设备的处理。

在上述构成中，操作处理包含限制处理。因此，即便关系规定数据指定的行动变量的值是对于操作来说不适当的值，也能够抑制进行与不适当的行动变量的值对应的操作这一情况。

技术方案4.在上述技术方案3记载的车辆用控制装置中，所述第1状况也可以是上次的所述行动变量的值与所述第1值之差的绝对值为预定值以下的状况，所述第2状况也可以是上次的所述行动变量的值与所述第1值之差的绝对值超过所述预定值的状况。

在上述构成中，在上次的行动变量的值与第1值之差的绝对值超过预定值的情况下，不允许基于第1值的操作。因此，能够抑制行动变量的值变化预定值以上这一情况。

技术方案5.在上述技术方案4记载的车辆用控制装置中，也可以是，所述限制处理包括：存储处理，存储所述行动变量的上次的值；和限制所述行动变量的本次的值，以使得所述本次的值与所述行动变量的上次的值之差的绝对值成为预定值以下的处理。

在上述构成中，限制本次的值，以使得所存储的上次的值与本次的值之差的绝对值成为预定值以下。由此，能够抑制通过操作处理在实际的操作中使用的行动变量的值急剧地变化这一情况。

技术方案6.在上述技术方案3记载的车辆用控制装置中，所述关系规定数据，也可以是规定将所述车辆的状态用作输入，输出所述行动变量的值的选择概率的函数近似器的数据，所述更新映射也可以包含：输出规定所述函数近似器的参数的更新量的映射，所述限制处理也可以包括：禁止进行按照所述函数近似器输出的选择概率成为低于预定值的所述行动变量的值的、所述电子设备的操作的处理，所述第1状况也可以是所述第1值的选择概率成为所述预定值以上的状况，所述第2状况也可以是所述第1值的选择概率成为低于所述预定值的状况。

在使用输出行动变量的值的选择概率的函数近似器的情况下，对于低概率的值，若在操作处理被采用，则有可能为不适当的值。因此，在上述构成中，通过不允许进行按照选择概率成为低于预定值的行动变量的值的电子设备的操作，能够抑制通过操作处理进行不适当的操作。

技术方案7.在上述技术方案4记载的车辆用控制装置中，所述限制处理也可以包括：存储处理，将表示用于算出所述行动变量的值的所述状态的变量的值的上次的值与所述关系规定数据一起存储；和校正处理，在表示所述状态的变量的值的上次的值与本次的值之差的绝对值超过规定值的情况下，对表示所述状态的变量的值进行校正，以使得与所述上次的值之差的绝对值成为所述规定值以下。

若表示状态的变量的值因噪声等的影响而急剧地变化，则相应地通过关系规定数据算出的行动变量的值也有可能急剧地变化。因此，在上述构成中，对表示确定行动变量的值的状态的变量的值与关系规定数据一起进行校正，以使得表示状态的变量的值的上次的值与本次的值之差的绝对值成为规定值以下。由此，能够抑制通过关系规定数据算出的行动变量的值急剧地变化这一情况。

技术方案8.根据本公开的一个技术方案，提供一种车辆用控制系统。所述车辆用控制系统具备上述技术方案1～7中任一项所述的所述处理电路以及所述存储装置，所述处理电路包含：搭载于所述车辆的第1执行装置、和与车载装置不同的第2执行装置，所述第2执行装置构成为至少执行所述更新处理，所述第1执行装置构成为至少执行所述取得处理以及所述操作处理。

在上述构成中，通过由第2执行装置执行更新处理，与第1执行装置执行更新处理的情况相比较，能够减轻第1执行装置的运算负荷。

而且，第2执行装置是与车载装置不同的装置，意味着第2执行装置不是车载装置。

技术方案9.根据本公开的一个技术方案，提供一种具备上述技术方案8所述的所述第1执行装置的车辆用控制装置。

方式10.根据本公开的一个技术方案，提供一种具备上述技术方案8所述的所述第2执行装置的车辆用学习装置。

附图说明

图1是表示第1实施方式涉及的控制装置以及驱动系统的构成的图。

图2是表示第1实施方式涉及的控制装置执行的处理的步骤的流程图。

图3是例示第1实施方式涉及的关系规定数据的图。

图4是表示第1实施方式涉及的学习处理的详情的流程图。

图5是表示第2实施方式涉及的控制装置执行的处理的步骤的流程图。

图6是表示第2实施方式涉及的学习处理的详情的流程图。

图7是表示第3实施方式涉及的控制装置执行的处理的步骤的流程图。

图8是表示第3实施方式涉及的学习处理的详情的流程图。

图9是表示第4实施方式涉及的车辆用控制系统的构成的图。

图10是表示第4实施方式涉及的控制系统执行的处理的步骤的流程图。

具体实施方式

＜第1实施方式＞

以下，参照附图并说明车辆用控制装置的第1实施方式。

图1表示本实施方式涉及的车辆VC1的驱动系统以及控制装置的构成。

如图1所示，在内燃机10的进气通路12中，从上游侧开始按顺序设置节流阀14以及燃料喷射阀16，被吸入到进气通路12的空气和/或从燃料喷射阀1喷射出的燃料，随着进气阀18的开阀，流入由汽缸20以及活塞22区划的燃烧室24中。在燃烧室24内，燃料和空气的混合气伴随点火装置26的火花放电而被供给燃烧，通过燃烧产生的能量经由活塞22转换为曲轴28的旋转能量。被供给燃烧的混合气伴随排气阀30的开阀，作为排气被排出到排气通路32。在排气通路32中，设置有作为对排气进行净化的后处理装置的催化剂34。

曲轴28的旋转动力经由正时链条(timing chain)36被传递给进气侧凸轮轴40以及排气侧凸轮轴42。详细而言，曲轴28的旋转动力经由进气阀正时可变装置44被传递到进气侧凸轮轴40上。

在曲轴28能够经由具备锁止离合器52的转矩转换器50机械性地连结变速装置60的输入轴62。变速装置60是将输入轴62的转速和输出轴64的转速之比、即变速比设为可变的装置。在输出轴64上机械性地连结有驱动轮66。

控制装置70将内燃机10设为控制对象，为了控制作为该控制量的转矩和/或排气分量比率等，对节流阀14、燃料喷射阀16、点火装置26以及进气阀正时可变装置44等的内燃机10的操作部进行操作。另外，控制装置70将转矩转换器50作为控制对象，为了控制锁止离合器52的接合状态，对锁止离合器52进行操作。另外，控制装置70将变速装置60作为控制对象，为了控制作为该控制量的变速比，对变速装置60进行操作。此外，图1中记载了节流阀14、燃料喷射阀16、点火装置26、进气阀正时可变装置44、锁止离合器52、以及变速装置60的各自的操作信号MS1～MS6。

控制装置70为了控制量的控制，参照通过空气流量计80检测的吸入空气量Ga、和/或通过节流阀传感器82检测的节流阀14的开口度(节流阀开口度TA)、曲轴角传感器84的输出信号Scr、设置于催化剂34的上游侧的空燃比传感器86的检测值Afu。另外，控制装置70参照检测进气侧凸轮轴40的旋转相位的凸轮角传感器85的输出信号Sca、通过加速踏板传感器90检测的加速踏板92的踏入量(加速踏板操作量PA)、通过加速度传感器94检测的车辆VC1的前后方向的加速度Gx。另外，控制装置70取得基于全球定位系统(GPS96)的位置数据Pgps、和/或通过车速传感器98检测的车速V。

控制装置70具备CPU72、ROM74、可电改写的非易失性存储器(存储装置76)、以及外围电路78，它们被设为能够经由本地网络(local network)79进行通信。在此，外围电路78包括：生成用于规定内部的动作的时钟信号的电路、和/或电源电路、复位(reset)电路等。

ROM74中存储有控制程序74a以及学习程序74b。另一方面，存储装置76中存储有关系规定数据DR、转矩输出映射数据DT、以及地图数据DG，所述关系规定数据DR规定变速装置60的当前的变速比GR、加速踏板操作量PA、车速V、道路的坡度SL、以及道路的曲率CU、和变速装置60的变速比GR之间的关系。

图2表示由控制装置70进行的变速装置60的变速比的控制有关的处理的步骤。图2所示的处理通过CPU72例如以预定周期反复执行ROM74所存储的程序而实现。此外，以下，通过在开头赋予了“S”的数字，表现各处理的步骤编号。

在图2所示的一连串的处理中，CPU72首先取得位置数据Pgps、加速踏板操作量PA、车速V、以及变速比GR(S10)。接着，CPU72基于位置数据Pgps和地图数据DG，算出车辆VC1正在行驶的道路的坡度SL和曲率CU(S12)。即，CPU72通过位置数据Pgps，确定地图数据DG表示的地图上的位置，确定所确定出的位置附近的道路的坡度SL和曲率CU。然后，CPU72将在S10的处理中取得的加速踏板操作量PA、车速V以及当前的变速比GR、在S12的处理中算出的坡度SL以及曲率CU设定为状态s(S14)。

接着，CPU72按照关系规定数据DR确定的策略π，设定与通过S14的处理取得的状态s相应的变速比GR(S16)。

在本实施方式中，关系规定数据DR是确定行动价值函数Q以及策略π的数据。在本实施方式中，行动价值函数Q是表示状态s和与行动a的6维的独立变量相应的期待收益的值的表格形式的函数。另外，在被给予了状态s时，策略π优先选择在成为被给予了独立变量的状态s的行动价值函数Q之中成为最大的行动a(贪婪(greedy)行动)，并且确定以预定的概率选择除此之外的行动a的规则。

详细而言，本实施方式涉及的行动价值函数Q的独立变量可取的值的数量，是状态s以及行动a的可取的值的全部组合的一部分根据人的见解等被削减后得到的数量。

图3中例示本实施方式涉及的行动价值函数Q的一部分。图3的(a1)中，在当前的变速比GR为2速的情况下，根据加速踏板操作量PA以及车速V，将作为行动a可取1速的区域记载为“可”，将不能取1速的区域记载为“不可”。此外，在图3的(a1)中，将行动a表示1速这一情况记载为“a＝1”。如图3的(a1)所示，仅限于车速V为低速的区域，作为行动a可取1速。此外，记载为“不可”的区域，是行动变量a的值在关系规定数据DR中未被定义的区域。

在图3的(a2)中，在当前的变速比GR为2速的情况下，根据加速踏板操作量PA以及车速V，将作为行动a可取2速的区域记载为“可”，将不能取2速的区域记载为“不可”。此外，在图3的(a2)中，将行动a表示2速这一情况记载为“a＝2”。如图3的(a2)所示，作为行动a可取2速的区域，具有与可取1速的区域重复的部分，并且成为车速V更大的区域。

在图3的(b1)中，表示在当前的变速比GR为3速的情况下，根据加速踏板操作量PA以及车速V，作为行动a可取1速的区域。如图3的(b1)所示，该情况下，不存在作为行动a可取1速的区域。

在图3的(b2)中，在当前的变速比GR为3速的情况下，根据加速踏板操作量PA以及车速V，将作为行动a可取2速的区域记载为“可”，将不能取2速的区域记载为“不可”。

上述设定是不允许变速比从3速到1速等跳一个进行切换的设定。

返回到图2，CPU72基于通过S16的处理设定了的变速比GR，输出操作信号MS5，对变速装置60进行操作(S18)。接着，CPU72取得内燃机10的转速NE(S20)。在此，CPU72基于曲轴角传感器84的输出信号Scr算出转速NE。然后，CPU72判定从图2的一连串的处理第一次完成了的时间点或者后述的S24的处理被执行了的时间点中较晚的一方起是否经过了预定期间(S22)。然后，CPU72在判定为经过了预定期间的情况下(S22：“是”)，通过强化学习，更新行动价值函数Q(S24)。

图4表示S24的处理的详情。

在图4所示的一连串的处理中，CPU72取得在上述的预定期间内的状态s以及行动a的时间序列数据(S30)。在图4中，括号中的数字不同的值表示是在不同的采样定时的变量的值。例如，节流阀开口度TA(1)和节流阀开口度TA(2)是采样定时互不相同的值。另外，将预定期间内的行动a的时间序列数据设为行动集合Aj，将该预定期间内的状态s的时间序列数据定义为状态集合Sj。

接着，CPU72基于状态集合Sj之中的变速比GR的时间序列数据，算出变速比被切换的次数、即切换次数NSGR(S32)。然后，CPU72判定表示切换次数NSGR为预定次数Nth以下之意的条件(A)、与表示预定期间内的转速NE的采样值全部为下限速度NEthL以上、且为上限速度NEthH以下之意的条件(B)的逻辑积是否为真(S34)。在此，逻辑积为真，在本实施方式中相当于满足关于驾驶性能(drivability)所要求的基准。

在此，CPU72根据坡度SL以及曲率CU可变地设定下限速度NEthL。详细而言，CPU72将下限速度NEthL设定为，在坡度SL大的情况下比坡度SL小的情况下大的值。而且，CPU72将下限速度NEthL设定为，在曲率CU大的情况下比曲率CU小的情况下大的值。

CPU72在判定为逻辑积为真的情况下(S34：“是”)，将“10”代入奖励r(S36)，另一方面，在判定为假的情况下(S34：“否”)，将“－10”代入奖励r(S38)。CPU72在S36、S38的处理完成的情况下，更新在图1所示的存储装置76所存储的关系规定数据DR。在本实施方式中，使用ε软件策略开启型蒙特卡罗法。

即，CPU72对于通过由上述S30的处理读出的各状态和对应的行动的组确定的收益R(Sj，Aj)分别加上奖励r(S40)。在此，“R(Sj，Aj)”是概括了将状态集合Sj的要素的1个设为状态、将行动集合Aj的要素的1个设为行动的收益R而得到的记载。接着，对于由通过上述S30的处理读出的各状态和对应的行动的组所确定的收益R(Sj，Aj)的每一个，进行平均化，代入到对应的行动价值函数Q(Sj，Aj)(S42)。在此，平均化设为：对进行了S40的处理的次数加上预定数得到的值除以通过S40的处理算出的收益R这样的处理即可。此外，收益R的初始值设为对应的行动价值函数Q的初始值即可。

接着，CPU72对于通过上述S30的处理读出的状态，分别将对应的行动价值函数Q(Sj，A)之中、成为最大值时的行动a，代入到行动Aj＊(S44)。在此，“A”表示可取的任意的行动。此外，行动Aj＊根据通过上述S40的处理读出的状态的种类而成为各不相同的值，但是在此为了简化记述，用同一符号记载。

此外，CPU72在S46的处理完成的情况下，暂时结束图4所示的一连串的处理。

返回至图2，CPU72在S24的处理完成的情况下、和/或在S22的处理中进行否定判定的情况下，暂时结束图2所示的一连串的处理。此外，S10～S22的处理通过CPU72执行控制程序74a而实现，S24的处理通过CPU72执行学习程序74b而实现。另外，车辆VC1的出厂时的关系规定数据DR，设为通过在测试台(test bench)执行与图2所示的处理同样的处理而预先进行了学习得到的数据。

在此，说明本实施方式的作用以及效果。

CPU72基于加速踏板操作量PA、车速V、坡度SL、曲率CU、以及当前的变速比GR，按照策略π，设定在本次的控制周期中应取的变速比GR即行动a。在此，CPU72基本上基于关系规定数据DR所规定的行动价值函数Q，选择使期待收益为最大的行动a。但是，CPU72通过以预定的概率“ε－ε/|A|”，选择将期待收益最大化的行动a以外的行动，进行使期待收益最大化的行动a的搜索。由此，能够伴随由用户进行的车辆VC1的驾驶，通过强化学习更新关系规定数据DR。因此，能够不过度增大本领域技术人员的工时而将根据加速踏板操作量PA、车速V、坡度SL、曲率CU、以及当前的变速比GR应更新的变速比GR，设定为在车辆VC1的行驶中适当的值。

但是，例如在当前的变速比为2速的情况下，作为搜索而尝试向4速的切换这样的情况，由于会导致变速比急剧地变化等，所以在本实施方式中，考虑为相当于不优选的切换。因此，如图3例示那样，预先限制在行动价值函数Q中定义的行动a，以使得不会通过搜索进行那样的变速。由此，能够抑制进行变速比不适当的操作这一情况。

根据以上说明的实施方式，能进一步得到以下记载的作用效果。

(1)不仅基于加速踏板操作量PA以及车速V，还基于坡度SL以及曲率CU决定变速比GR。由于在坡度SL大的情况下，与小的情况相比，有要求驱动轮66的转矩变大的倾向、和/或在拐弯行驶时，与直行行驶时相比，有进行从加速踏板操作以及制动操作中的一方向另一方切换的频率变高的倾向，所以适当的变速比能够根据坡度SL或曲率CU而不同。因此，在本实施方式中，通过根据坡度SL或曲率CU来设定变速比GR，能够更适当地设定变速比GR。但是，在基于坡度SL和/或曲率CU设定变速比GR的情况下，与仅根据加速踏板操作量PA以及车速V设定变速比GR的情况相比，适合工时变大。因此，如本实施方式这样采用强化学习的优点特别大。

＜第2实施方式＞

以下，对于第2实施方式，以与第1实施方式的不同点为中心，参照附图并进行说明。

图5表示本实施方式涉及的控制装置70执行的处理的步骤。图5所示的处理通过CPU72例如以预定周期反复执行ROM74所存储的控制程序74a以及学习程序74b来实现。

在图5所示的一连串的处理中，CPU72首先判定怠速转速控制的执行条件是否成立(S50)。该执行条件例如设为加速踏板操作量PA为零这一情况、与转速NE为预定值以下这一情况的逻辑积为真等的条件即可。

CPU72在判定为执行条件成立的情况下(S50：“是”)，作为状态s，取得转速NE以及目标转速NE＊(S52)。在此，目标转速NE＊设为例如通过CPU72算出为，在要求内燃机10的轴转矩大的情况下比小的情况下大的值。

接着，CPU72判定在后述的S60的处理中使用的上次的转速NE(n－1)与在本次的S52的处理中取得的转速NE(n)之差的绝对值是否大于预定值ΔNEth(S56)。在此，预定值ΔNEth被设定为与作为图5所示的一连串的处理的周期中的转速NE的变化量而设想的最大值相比更大的值。CPU72在判定为比预定值ΔNEth大的情况下，对转速NE(n)实施保护(guard)处理，以使得在本次的S52的处理中取得的转速NE(n)相对于在后述的S60的处理中使用的上次的转速NE(n－1)的变化量的绝对值成为预定值ΔNEth(S58)。

CPU72在S58的处理完成的情况下、和/或在S56的处理中进行否定判定的情况下，按照关系规定数据DR确定的策略π，设定由通过S52的处理取得的状态s所对应的节流阀开口度指令值TA＊以及进气相位差指令值DIN＊构成的行动a(S60)。此外，在正在进行S58的处理的情况下，在通过S52的处理取得的状态s之中的转速NE(n)，被校正为通过S58的处理实施了保护处理后的值，在S60的处理中使用校正后的值。

在本实施方式中，关系规定数据DR是确定行动价值函数Q以及策略π的数据。在本实施方式中，行动价值函数Q是表示状态s以及与行动a的4维的独立变量相应的期待收益的值的表格形式的函数。另外，策略π在被给予了状态s时，优先选择成为被给予了独立变量的状态s的行动价值函数Q之中成为最大的行动a(贪婪行动)，并且确定以规定的概率选择除此以外的行动a的规则。

接着，CPU72基于所设定了的节流阀开口度指令值TA＊以及进气相位差指令值DIN＊，对节流阀14输出操作信号MS1，操作节流阀开口度TA，并且对进气阀正时可变装置44输出操作信号MS4，对进气相位差DIN进行反馈控制(S62)。此外，进气相位差DIN通过CPU72基于曲轴角传感器84的输出信号Scr以及凸轮角传感器85的输出信号Sca而算出。

接着，CPU72在将本次的转速NE(n)存储在了存储装置76后，更新变量n(S64)。由此，通过本次S64的处理所存储的转速NE，在下次的控制周期的S56的处理中，作为上次的转速NE(n－1)被读出。接着，CPU72取得喷射量指令值Q＊(S66)。在此，喷射量指令值Q＊是通过CPU72在将例如检测值Afu控制为目标值之后，作为需要的燃料量而被算出的值。

然后，CPU72判定从在S50的处理中进行否定判定的状态切换到进行肯定判定的状态的定时、和后述的S24a的处理执行完成的定时中的较晚的一方起，是否经过了预定期间(S68)。然后，CPU72在判定为经过了预定期间的情况下(S68：“是”)，更新关系规定数据DR(S24a)。

图6表示S24a的处理的详情。

在图6所示的一连串的处理中，CPU72首先取得预定期间内的喷射量指令值Q＊的时间序列数据、和状态s以及行动a的时间序列数据(S70)。接着，CPU72算出喷射量指令值Q＊的时间序列数据的累计值InQ(S72)。

然后，CPU72判定表示预定期间内的转速NE与目标转速NE＊之差的绝对值为预定值Δ以下之意的条件(F)是否成立(S74)。CPU72在判定为条件(F)成立的情况下(S74：“是”)，判定表示累计值InQ为高效率阈值InQL以下之意的条件(G)是否成立(S76)。在此，CPU72根据目标转速NE＊可变地设定高效率阈值InQL。详细而言，CPU72将高效率阈值InQL设定为：在目标转速NE＊大的情况下比小的情况下大的值。CPU72在判定为条件(G)成立的情况下(S76：“是”)，将“10”代入奖励r(S78)。

相对于此，CPU72在判定为大于高效率阈值InQL的情况下(S76：“否”)，判定表示累计值InQ为低效率阈值InQH以上之意的条件(H)是否成立(S80)。在此，CPU72根据目标转速NE＊可变地设定低效率阈值InQH。详细而言，CPU72将低效率阈值InQH设定为：在目标转速NE＊大的情况下比小的情况下大的值。CPU72在判定为条件(H)成立的情况下(S80：“是”)、和/或在S74的处理中否定判定的情况下，将“－10”代入奖励r(S82)。

而且，S76～S82的处理，是给予在能量利用效率大的情况下比小的情况下大的奖励的处理。

CPU72在完成S78、S82的处理的情况下、和/或在S80的处理中进行否定判定的情况下，为了更新图1所示的存储装置76所存储的关系规定数据DR，对于图3的处理变更行动a以及状态s，并且以图3所示的处理的要点执行S40～S46的处理。然后，CPU72在S46的处理完成的情况下，暂时结束图6所示的一连串的处理。

返回到图5，CPU72在S24a的处理完成的情况下、和/或在S50、S68的处理中进行否定判定的情况下，暂时结束图5所示的一连串的处理。此外，S50～S68的处理通过CPU72执行控制程序74a而实现，S24a的处理通过CPU72执行学习程序74b而实现。另外，车辆VC1的出厂时的关系规定数据DR，设为通过在测试台执行与图5所示的处理同样的处理而预先进行了学习得到的数据。

在此，说明本实施方式的作用以及效果。

CPU72在怠速转速控制时，不仅控制节流阀开口度TA，还将进气相位差DIN作为操作量，将转速NE控制为目标转速NE＊。由此，与将进气相位差指令值DIN＊固定来执行怠速转速控制的情况相比，能够执行降低了燃料消耗量的控制。但是，在将进气相位差指令值DIN＊加到操作量的情况下，适合工时变大。因此，在本实施方式中，使用通过强化学习而学习后的关系规定数据DR，执行怠速转速控制。

进而，CPU72按照策略π，设定由节流阀开口度指令值TA＊以及进气相位差指令值DIN＊构成的行动a。在此，CPU72基本上基于关系规定数据DR所规定的行动价值函数Q，选择使期待收益为最大的行动a。但是，CPU72通过以规定的概率“ε－ε/|A|”选择将期待收益最大化的行动a以外的行动，进行将期待收益最大化的行动a的搜索。由此，能够通过强化学习将关系规定数据DR更新为反映了内燃机10的个体差或经年变化的适当的数据。

另外，在本实施方式中，将成为向行动价值函数Q的输入的本次的转速NE(n)相对于上次的转速NE(n－1)的变化量，限制在了预定值ΔNEth以下。在此，预定值ΔNEth由于是比图5的处理的控制周期的转速NE的变化量的设想最大值要大的值，所以在本次的转速NE(n)相对于上次的转速NE(n－1)的变化量超过了预定值ΔNEth的情况下，认为本次的转速NE(n)因噪声等的影响而成为了与实际的转速NE不同的值。因此，通过限制为预定值ΔNEth以下，能够抑制基于异常的转速NE(n)设定节流阀开口度指令值TA＊和/或进气相位差指令值DIN＊这一情况。由此，特别地，能够抑制节流阀开口度指令值TA＊、和/或进气相位差指令值DIN＊的急剧的变化。即，在上次的转速NE(n－1)与本次的转速NE(n)之差的绝对值过度大的情况下，认为贪婪行动在上次和本次中大不相同。因此，在双方均选择贪婪行动的情况下，在上次的转速NE(n－1)与本次的转速NE(n)之差的绝对值过度大的情况下，节流阀开口度指令值TA＊、和/或进气相位差指令值DIN＊有可能急剧地变化。

＜第3实施方式＞

以下，对于第3实施方式，以与第1实施方式的不同点为中心，参照附图并进行说明。

在本实施方式中，作为强化学习，使用策略坡度法。

而且，在本实施方式中，将节流阀开口度指令值TA＊、点火正时的延迟角量aop、以及基础喷射量Qbse作为不限于怠速转速控制的一般的行动变量，来执行强化学习。在此，延迟角量aop是相对于预先决定的基准点火正时的延迟角量，基准点火正时是MBT点火正时和爆震(knock)临界点之中的延迟角侧的时期。MBT点火正时是能够得到最大转矩的点火正时(最大转矩点火正时)。另外，爆震临界点是在使用爆震临界高的高辛烷值燃料时，在所设想的最佳条件下，能够控制在可允许爆震的水平以内的点火正时的提前角临界值。而且，基础喷射量Qbse是用于将检测值Afu控制为目标值的开环操作量。

图7表示本实施方式涉及的控制装置70执行的处理的步骤。图7所示的处理通过CPU72例如以预定周期反复执行ROM74所存储的控制程序74a以及学习程序74b而实现。

在图7所示的一连串的处理中，CPU72首先取得加速踏板操作量PA、转速NE、以及填充效率η的时间序列数据来作为状态s(S90)。在本实施方式中，将加速踏板操作量PA、转速NE、以及填充效率η设为以等间隔采样得到的6个值。

然后，CPU72将状态s代入确定策略π的函数近似器的输入变量(S92)。详细而言，作为“i＝1～6”，CPU72将加速踏板操作量PA(i)代入到输入变量x(i)，将转速NE(i)代入到输入变量x(6+i)，将填充效率η(i)代入到输入变量x(12+i)。

然后，CPU72将输入变量x(1)～s(18)代入到确定策略的函数近似器(S94)。在本实施方式中，将策略π设为用于确定概率的多变量高斯分布，该概率是确定行动的各操作量可取的概率。在此，多变量高斯分布的平均值μ(1)表示节流阀开口度指令值TA＊的平均值，平均值μ(2)表示延迟角量aop的平均值，平均值μ(3)表示基础喷射量Qbse的平均值。而且，在本实施方式中，将多变量高斯分布的协方差矩阵设为对角矩阵，将各平均值μ(i)所对应的方差σ(i)设为可成为各自不同的值。

在本实施方式中，平均值μ(i)由中间层的层数为“p－1”个、且各中间层的激活函数h1～hp－1为双曲线正切(hyperbolic tangent)、输出层的激活函数hp为ReLU的神经网络构成。在此，ReLU是将输入和“0”中的并不小的一方输出的函数。而且，若设为m＝2，3，…，p，则第“m－1”的中间层的各节点的值通过将由系数w(m)规定的线性映射的输出向激活函数hm输入而生成。在此，n1、n2、…、np－1分别为第1、第2、…、第p－1中间层的节点数。例如，第1中间层的各节点的值，通过将向由系数w(1)ji(j＝0～n1，i＝0～18)规定的线性映射输入上述输入变量x(1)～x(18)时的输出，向激活函数h1输入而生成。顺便提一下，w(1)j0等是偏置参数(Bias parameter)，输入变量x(0)定义为“1”。

上述神经网络是将激活函数hp的三个输出分别设为平均值μ(i)的神经网络。

另外，在本实施方式中，将方差σ(i)设为：将通过由系数wTik(i＝1～3，k＝1～18)规定的线性映射对输入变量x(1)～x(18)进行了线性变换后的各个值，输入到函数f时的函数f的值。在本实施方式中，作为函数f，例示ReLU。

接着，CPU72基于通过S94的处理算出的平均值μ(i)以及由方差σ(i)定义的策略π，决定行动a(S96)。在此，选择平均值μ(i)的概率是最高的，并且选择平均值μ(i)的概率在方差σ(i)小的情况下比方差σ(i)大的情况下大。

但是，在本实施方式中，将贪婪行动视为是与平均值μ(i)对应的行动，将构成通过搜索可取的行动a的各变量的值与构成贪婪行动的各变量的值之差的绝对值限制为预定值δ以下。即，在将策略π的概率分布设为多变量高斯分布的情况下，具有从平均值μ(i)大幅偏离的值的行动a的概率非常小，但不为零。即，具有从平均值μ(i)大幅偏离的值的行动a，有可能由关系规定数据DR指定。并且，虽说是低概率，但是由于作为搜索不希望采取极端的行动a，所以将与贪婪行动之差的绝对值限制为预定值δ以下。这与禁止采用由策略π的值确定的、选择概率低于预定值的行动a的情况对应。

接着，CPU72判定通过S96的处理设定了的本次的延迟角量aop(n)、与在后述的S102的处理中所采用的上次的延迟角量aop(n－1)之差的绝对值是否大于预定值Δaopth(S98)。并且，在判定为大于预定值Δaopth的情况下(S98：“是”)，CPU72对延迟角量aop(n)实施保护处理，以使得与在S102的处理中所采用的上次的延迟角量aop(n－1)之差的绝对值成为预定值Δaopth(S100)。即，CPU72对关系规定数据DR指定的延迟角量aop实施保护处理。

CPU72在S100的处理完成的情况下、和/或在S98的处理中进行否定判定的情况下，对节流阀14输出操作信号MS1，对点火装置26输出操作信号MS3，对燃料喷射阀16输出操作信号MS2(S102)。详细而言，CPU72为了将节流阀开口度TA反馈控制给节流阀开口度指令值TA＊，输出操作信号MS1。而且，CPU72为了将点火正时控制为通过爆震控制对基准点火正时以延迟角量aop延迟后的值进行反馈校正后的值，输出操作信号MS3。在此，基准点火正时通过CPU72根据曲轴28的转速NE以及填充效率η被可变地设定。此外，填充效率η通过CPU72基于转速NE以及吸入空气量Ga算出。而且，CPU72基于基础喷射量Qbse被通过反馈校正系数校正后得到的值，输出操作信号MS2，反馈校正系数是用于将检测值Afu反馈控制给目标值Afu＊的操作量。

然后，CPU72使在S102的处理中使用了的延迟角量aop存储在存储装置76中，并更新变量n(S104)。由此，在本次S104的处理中存储的延迟角量aop，在下次的S98的处理中作为上次的延迟角量aop(n－1)而被读出。

然后，CPU72执行用于更新关系规定数据DR的处理(S24b)，暂时结束图7所示的一连串的处理。

图8表示S24b的处理的详情。

CPU72除了取得行动a以及状态s以外，还取得转矩指令值Trq＊、转矩Trq、加速度Gx以及检测值Afu(S110)。在此，CPU72通过将转速NE、填充效率η以及点火正时输入到由转矩输出映射数据DT规定的转矩输出映射来算出转矩Trq。而且，CPU72根据加速踏板操作量PA设定转矩指令值Trq＊。

接着，CPU72判定以下的条件(K)～条件(M)的逻辑积是否为真(S112)。

条件(K)：是表示转矩Trq与转矩指令值Trq＊之差的绝对值为规定量ΔTrq以下之意的条件。

条件(L)：是表示加速度Gx为下限值GxL以上、且为上限值GxH以下之意的条件。

条件(M)：是表示检测值Afu为浓(rich)侧阈值AfR以上、且为稀(lean)侧阈值AfL以下之意的条件。

然后，CPU72在判定为逻辑积为真的情况下(S112：“是”)，将“10”代入奖励r(S114)。另一方面，在判定为假的情况下(S112：“否”)，将“－10”代入奖励r(S116)。此外，S112～S116的处理，是给予在驾驶性能满足基准的情况下比不满足的情况下大的奖励的处理、以及给予在排气特性满足基准的情况下比不满足的情况大的奖励的处理。CPU72在S114、S116的处理完成的情况下，对收益R加上奖励r(S118)。

然后，CPU72判定变量t是否达到了规定时间T－1(S120)。CPU72在判定为未达到规定时间T－1的情况下(S120：“否”)，使变量t增加(S122)。

相对于此，CPU72在判定为达到规定时间T－1的情况下(S120：“是”)，在对收益Ri代入了收益R后，将收益R初始化，进而将变量t初始化(S124)。接着，CPU72判定变量i是否达到了预定值N(S126)。然后，CPU72在判定为未达到预定值N的情况下(S126：“否”)，使变量i增加(S128)。

相对于此，CPU72在判定为达到预定值N的情况下(S126：“是”)，通过策略坡度法，更新规定策略π的变量w(1)～w(p)和/或系数wT(S130)。图8中将规定策略π的变量w(1)～w(p)和/或系数wT概括记载为参数θ。

在此，将变量t成为0～T-1为止的状态s、行动a及奖励r的T个组设为轨迹ht，将概率pθ(ht)设为按照由参数θ规定的策略π成为轨迹ht的概率pθ(ht)。在此，“pθ(ht)·Rt”的轨迹ht的积分值，是收益R(ht)的期待值(期待收益J)，更新参数θ，以使其最大化。这可以通过将参数θ的各分量的更新量设为与通过该分量对上述期待收益J进行偏微分后得到的值成比例的量来实现。

在此，概率pθ(ht)若使用状态s0、s1、…sT、行动a0、a1、…aT，则

pθ(ht)

其中，初始概率p(s0)是成为状态s0的概率，迁移概率p(st+1|st，at)是在状态st、行动at时，从状态st向状态st+1迁移的概率。

因此，期待收益J的偏微分成为下述的式(c1)。

在此，关于概率pθ(ht)，由于无法获知，所以将上述的式(c1)中的积分置换为多个(在此为预定值N个)的轨迹ht的平均值。

由此，期待收益J的参数θ的各分量的偏微分，成为针对预定值N个收益Ri加上，策略π(at|st)的对数的参数θ的相应分量的偏微分系数的“t＝0～T－1”之和与收益Ri的乘积，并除以预定值N得到的值。

然后，CPU72将对参数θ的各分量的期待收益J的偏微分系数乘以学习率α得到的值，设为参数θ之中的相应的分量的更新量。

此外，S118～S130的处理，通过执行ROM74所存储的学习程序74b中、将状态s0、s1、…、行动a0、a1、…、以及奖励r作为输入，输出更新后的参数θ的更新映射的执行指令而实现。

CPU72在S130的处理完成的情况下，将变量i以及收益R1～RN进行初始化(S132)。

此外，CPU72在S122、S128、S132的处理完成的情况下，暂时结束图8所示的一连串的处理。

在此，说明本实施方式的作用以及效果。

CPU72基于加速踏板操作量PA、转速NE以及填充效率η的时间序列数据，按照策略π，设定节流阀开口度指令值TA＊、延迟角量aop以及基础喷射量Qbse。在此，在过渡时，如果仅将作为开环操作量的基础喷射量Qbse设为与填充效率η成比例的值，则检测值Afu有可能从浓侧阈值AfR和稀侧阈值AfL之间偏离。并且，在通过本领域技术人员反复试错来进行如何设定基础喷射量Qbse为好的情况下，要求本领域技术人员的工时变多。相对于此，在本实施方式中，通过强化学习来学习作为过渡时的开循环控制的喷射量的基础喷射量Qbse，能够有效地削减要求本领域技术人员的工时。

在此，CPU72在基于策略π设定节流阀开口度指令值TA＊、延迟角量aop以及基础喷射量Qbse时，将与贪婪行动表示的值之差的绝对值限制为预定值δ以下。由此，能够抑制作为搜索过度地采用不适当的值。另外，CPU72将在本次的点火正时的设定中使用的延迟角量aop(n)与在上次点火正时的设定中使用了的延迟角量aop(n－1)之差的绝对值限制为预定值Δaopth以下。由此，能够抑制点火正时急剧地变化。

根据以上说明的本实施方式，能够进一步获得以下记载的效果。

(2)通过对关系规定数据DR使用函数近似器，即使状态和/或行动是连续变量，也能够容易地对其进行处理。

(3)在行动价值函数Q的独立变量中包含了加速踏板操作量PA的时间序列数据。由此，关于加速踏板操作量PA，与仅将单一的采样值设为独立变量的情况下相比，对于加速踏板操作量PA的各种变化，能够精细地调整行动a的值。

(4)在行动价值函数Q的独立变量中包含了节流阀开口度指令值TA＊自身。由此，例如，与将节流阀开口度指令值TA＊的举动进行模型化后的模型式的参数等设为与节流阀开口度有关的独立变量的情况相比，能够容易提高基于强化学习的搜索的自由度。

＜第4实施方式＞

以下，对于第4实施方式，以与第3实施方式的不同点为中心，参照附图并进行说明。

在本实施方式中，在车辆VC1之外执行关系规定数据DR的更新。

图9表示在本实施方式中执行强化学习的控制系统的构成。此外，在图9中，对于与图1所示的部件对应的部件，为了方便附加同一标号。

图9所示的车辆VC1内的控制装置70中的ROM74虽然存储有控制程序74a，但是不存储学习程序74b。而且，控制装置70具备通信机77。通信机77是用于经由车辆VC1的外部的网络100与数据解析中心110进行通信的设备。

数据解析中心110解析从多个车辆VC1、VC2、…发送的数据。数据解析中心110具备CPU112、ROM114、电可改写的非易失性存储器(存储装置116)、外围电路118以及通信机117，它们被设为能够通过本地网络119进行通信。在ROM114中存储有学习程序114a，在存储装置116中存储有关系规定数据DR。

图10表示本实施方式涉及的强化学习的处理步骤。图10的(a)所示的处理，通过CPU72执行在图9所示的ROM74所存储的控制程序74a来实现。而且，图10的(b)所示的处理通过CPU112执行在ROM114中所存储的学习程序114a来实现。此外，在图10中，对于与图7所示的处理对应的处理，为了方便附加同一步骤编号。以下，沿着强化学习的时间序列，说明图10所示的处理。

在图10的(a)所示的一连串的处理中，CPU72执行S90～S104的处理，通过操作通信机77，发送关系规定数据DR的更新处理所需要的数据(S140)。在此，被作为发送对象的数据包括：状态s、行动a、转矩指令值Trq＊、转矩Trq、加速度Gx、以及检测值Afu。

相对于此，如图10的(b)所示，CPU112接收所发送的数据(S150)，基于接收到的数据，更新关系规定数据DR(S24b)。然后，CPU112判定是否有应发送的、被更新后的关系规定数据DR(S152)，在判定为有的情况下(S152：“是”)，操作通信机117，对发送了通过S150的处理而接收到的数据的车辆VC1发送关系规定数据DR(S154)。在此，在关系规定数据DR的更新次数为预定次数以上的情况下，设为有应发送的、被更新后的关系规定数据DR即可。而且，CPU112在完成S154的处理的情况下、和/或在S152的处理中进行否定判定的情况下，暂时结束图10的(b)所示的一连串的处理。

相对于此，如图10的(a)所示，CPU72判定是否有更新数据(S142)，在判定为有的情况下(S142：“是”)，接收更新后的关系规定数据DR(S144)。然后，CPU将在S96的处理中利用的关系规定数据DR改写为接收到的关系规定数据DR(S146)。而且，CPU72在完成S146的处理的情况下、和/或在S142的处理中进行否定判定的情况下，暂时结束图10的(a)所示的一连串的处理。

这样，根据本实施方式，由于在车辆VC1的外部进行关系规定数据DR的更新处理，因此能够减轻控制装置70的运算负荷。进而，例如，在S150的处理中，如果接收来自多个车辆VC1、VC2的数据进行S24b的处理，则能够容易增大在学习中使用的数据数。

＜对应关系＞

上述实施方式中的事项、与上述“发明内容”一栏中记载的事项的对应关系如下。以下，对于在“发明内容”一栏中记载的技术方案的每个编号，示出对应关系。

[1]执行装置、即处理电路对应于CPU72以及ROM74，存储装置对应于存储装置76。取得处理对应于S10、S12、S20、S52、S66、S90、S110的处理，操作处理对应于图2的S18的处理、和/或图5的S56～S62的处理、图7的S96～S102的处理。奖励算出处理对应于图4的S34～S38的处理、图6的S74～S82的处理、图8的S112～S116的处理。更新处理对应于S40～S46的处理、S118～S130的处理。更新映射对应于通过学习程序74b中执行S40～S46的处理的指令而规定的映射、和/或通过执行S118～S130的处理的指令而规定的映射。在图3中，第1值对应于与1速对应的“1”，第1状况对应于变速比为2速的状况，第2状况对应于变速比为3速的状况。在图5中，第1值对应于通过与上次的转速NE(n－1)之差的绝对值为预定值ΔNEth以下的转速NE以及策略π无法取得的行动变量的值。另外，第2状况对应于转速NE与上次的转速NE(n－1)之差的绝对值超过预定值ΔNEth的状况，第1状况对应于转速NE与上次的转速NE(n－1)之差的绝对值为预定值ΔNEth以下的状况。

[2]关系规定数据对应于图3例示的数据。

[3]限制处理对应于S56、S58的处理、和/或S96～S100的处理。

[4、5]存储处理对应于S104的处理，限制处理对应于S98、S100的处理。

[6]限制处理对应于S96的处理。

[7]存储处理对应于S64的处理，校正处理对应于S58的处理。

[8～10]第1执行装置对应于CPU72以及ROM74，第2执行装置对应于CPU112以及ROM114。

＜其他实施方式＞

而且，本实施方式能够如以下这样变更来实施。本实施方式以及以下的变更例在技术上不矛盾的范围中可互相组合来实施。

“关于限制处理”

·在图7的处理中，仅限于延迟角量aop，执行了限制与上次的延迟角量aop(n－1)之差的绝对值的处理，但是不限于此。例如，也可以对节流阀开口度指令值TA＊，也执行限制与上次值之差的绝对值的处理，另外，例如也可以对基础喷射量Qbse也执行限制与上次值之差的绝对值的处理。另外，例如，也可以对于节流阀开口度指令值TA＊，执行限制与上次值之差的绝对值的处理，并且对于延迟角量aop，不执行限制与上次值之差的绝对值的处理也可。

·在图7的处理中，在禁止进行基于策略π表示的选择概率成为低于预定值的行动变量的值的操作的处理中，将预定值设为与平均值μ之差的绝对值成为“δ·μ”时的行动变量的值的选择概率，但是不限于此。例如，也可以将预定值设为方差作为输入可变地设定。

·执行限制与上次值之差的绝对值的处理、和禁止进行基于策略π表示的选择概率成为低于预定值的行动变量的值的操作的处理这两方，并非必须。

·作为限制处理，不限于限制与上次的行动变量的值之差的绝对值的处理、和/或通过限制与上次的状态的值之差的绝对值来限制与上次的行动变量的值之差的绝对值的处理、限制采用选择概率小的行动变量的值的处理。例如，在加速踏板操作量PA为比零大的规定值以上的情况下，也可以预先确定通过禁止节流阀开口度指令值TA＊成为零的处理等、被认为搜索等无法成为贪婪行动的行动变量的值。

“关于行动变量”

·在图7的处理中，作为与作为行动变量的节流阀的开口度有关的变量，例示了节流阀开口度指令值TA＊，但是不限于此。例如，也可以通过无用时间以及2次延迟滤波器来表现节流阀开口度指令值TA＊相对于加速踏板操作量PA的响应性，也可以将无用时间、和规定2次延迟滤波器的2个变量的合计即3个变量，设为与节流阀的开口度有关的变量。但是，在该情况下，就状态变量而言，优选取代加速踏板操作量PA的时间序列数据，设为加速踏板操作量PA的每单位时间的变化量。

·在上述实施方式中，作为与作为行动变量的点火正时有关的变量，例示了延迟角量aop，但是不限于此。例如，也可以是作为基于KCS的校正对象的点火正时自身。

·在图7的处理中，作为行动变量，例示了与节流阀的开口度有关的变量、与点火正时有关的变量、以及燃料喷射量，但是不限于此。例如，对于这3个，作为行动变量也可以仅采用与节流阀的开口度有关的变量以及燃料喷射量，仅采用与点火正时有关的变量以及燃料喷射量。进而，对于这3个，作为行动变量，也可以仅采用它们中的一个。

·如“关于内燃机”一栏中所记载的那样，在为压缩点火式的内燃机的情况下，取代与节流阀的开口度有关的变量而使用与喷射量有关的变量，取代与点火正时有关的变量而使用与喷射时期有关的变量即可。此外，优选除了与喷射时期有关的变量之外，还加上与1燃烧循环中的喷射次数有关的变量、和/或与用于1燃烧循环中的一个气缸的时间序列上相邻的两个燃料喷射中的一方的结束定时和另一方的开始定时之间的时间间隔有关的变量。

·例如在变速装置60为有级变速装置的情况下，也可以将用于通过液压调整离合器的接合状态的电磁阀的电流值等作为行动变量。

·例如，如下述“关于车辆”一栏中记载的那样，在作为车辆采用混合动力车、电动汽车、燃料电池车的情况下，也可以将旋转电机的转矩、输出设为行动变量。另外，例如在具备具有通过内燃机的曲轴的旋转动力而旋转的压缩机的车载空调装置的情况下，也可以将压缩机的负载转矩包含在行动变量中。而且，在具备电动式的车载空调装置的情况下，也可以将空调装置的消消耗电力力包含在行动变量中。

“关于状态”

·在上述实施方式中，将加速踏板操作量PA的时间序列数据设为由以等间隔采样得到的6个值构成的数据，但是不限于此。只要是由互不相同的采样定时的2个以上的采样值构成的数据即可，此时，更优选为由3个以上的采样值构成的数据、或采样间隔为等间隔的数据。

·作为与加速踏板操作量有关的状态变量，不限于加速踏板操作量PA的时间序列数据，例如也可以如“关于行动变量”一栏中记载的那样，是加速踏板操作量PA的每单位时间的变化量等。

·在图7的处理中，将转速NE的时间序列数据设为由以等间隔采样得到的6个值构成的数据，但是不限于此。只要是由相互不同的采样定时的2个以上的采样值构成的数据即可，此时，更优选是由3个以上的采样值构成的数据、或是采样间隔为等间隔的数据。

·在图7的处理中，将填充效率η的时间序列数据设为由以等间隔采样得到的6个值构成的数据，但是不限于此。只要是相互不同的采样定时的2个以上的采样值构成的数据即可，此时，更优选是由3个以上的采样值构成的数据、或是采样间隔为等间隔的数据。

·在图7的处理中，使用加速踏板操作量PA、转速NE、以及填充效率η各自的时间序列数据不是必须的。例如，也可以仅使用加速踏板操作量PA以及填充效率η的时间序列数据。而且，在使用多个变量的时间序列数据的情况下，它们的采样数相同也不是必须的。

·例如如在“关于行动变量”一栏中记载的那样，在将电磁阀的电流值设为行动变量的情况下，在状态中包含变速装置的输入轴62的转速、和/或输出轴64的转速、通过电磁阀调整的液压即可。另外，例如在“关于行动变量”一栏中记载的那样，在将旋转电机的转矩和/或输出设为行动变量的情况下，在状态中包含电池的充电率和/或温度即可。另外，例如如“关于行动变量”一栏中记载的那样，在将压缩机的负荷转矩和/或空调装置的消消耗电力力包含在行动中的情况下，在状态中包含车厢内的温度即可。

“关于关系规定数据”

·在上述实施方式中，将行动价值函数Q设为了表格形式的函数，但是不限于此。例如，也可以使用函数近似器。

·在车辆的状态为与第1状况对应的第1状态时，将第1值定义为行动变量的值，另一方面，在车辆的状态为与第2状况对应的第2状态时，作为不将第1值定义为行动变量的值的数据，不限于图3中例示的数据。例如，在图5的处理中，在转速NE低于目标转速NE＊的情况下，也可以是不将节流阀开口度指令值TA＊为预定值以下的行动变量的值预先定义为行动价值函数Q的独立变量等。

“关于操作处理”

·例如如“关于关系规定数据”一栏中记载的那样，在将行动价值函数设为函数近似器的情况下，对于有关成为上述实施方式中的表格形式的函数的独立变量的行动的离散的值的全部组，通过与状态s一起输入到行动价值函数Q，确定使行动价值函数Q最大化的行动a即可。即，例如，在操作中采用主要确定出的行动a，并且以规定的概率选择除此之外的行动即可。

“关于更新映射”

·在S40～S46的处理中，例示了基于ε软件策略开启型蒙特卡罗法的处理，但是不限于此。例如，也可以是基于策略关闭(OFF)型蒙特卡罗法的处理。但是，也不限于蒙特卡罗法，例如也可以采用策略关闭型TD法，并且例如如SARSA法那样采用策略开启型TD法，并且例如作为策略开启型的学习采用合格度跟踪法。

·不限于仅将行动价值函数Q和策略π中的任一方设为基于奖励r的直接的更新对象。例如，也可以如行动评价(Actor Critic)法那样，分别更新行动价值函数Q以及策略π。而且，在行动评价法中，不限于此，例如也可以取代行动价值函数Q，将价值函数V设为更新对象。

·对于确定策略π的“ε”，不限于固定值，也可以根据学习的进行程度，根据预先确定的规则来变更。这例如在行动价值函数Q的值收敛的情况下，能够通过将“ε”设为零而仅使得选择贪婪行动来实现。在该情况下，如果本次的转速NE(n)与上次的转速NE(n－1)之差的绝对值大于预定值ΔNEth，则由于认为行动a的值没有概率性的要素而急剧地变化，因此S56、S58的处理的利用价值特别大。

“关于奖励算出处理”

·在图4的处理中，根据条件(A)以及条件(B)的逻辑积是否为真来给予奖励，但是不限于此。例如，也可以执行根据是否满足条件(A)来给予奖励的处理、和根据是否满足条件(B)来给予奖励的处理。而且，例如关于根据是否满足条件(A)来给予奖励的处理、和根据是否满足条件(B)来给予奖励的处理的两个处理，也可以仅执行它们中的任一个处理。

·作为与驾驶性能有关的基准，不限于上述，例如也可以根据噪声或振动强度是否满足基准来设定。但是不限于此，也可以是上述加速度是否满足基准、转矩Trq的追随性是否满足基准、噪声是否满足基准、振动强度是否满足基准这4个中的任意一个以上。

·作为奖励算出处理，也可以全部包含根据是否满足与驾驶性能有关的基准来给予奖励r的处理、在能量利用效率满足基准的情况下比不满足的情况下给予更大的奖励的处理、在燃料消耗率满足基准的情况下比不满足的情况下给予更大的奖励的处理这3个。另外，也可以仅包含3个处理中的任意2个或者1个。

·另外，例如“关于行动变量”一栏中记载的那样，在将变速装置60的电磁阀的电流值设为行动变量的情况下，例如在奖励算出处理中包含以下的(a)～(c)的3个处理中的至少1个处理即可。

(a)给予在基于变速装置的变速比的切换中所需的时间为预定时间以内的情况下比超过预定时间的情况下大的奖励的处理。

(b)给予在变速装置的输入轴62的转速的变化速度的绝对值为输入侧预定值以下的情况下比超过输入侧预定值的情况下大的奖励的处理。

(c)给予在变速装置的输出轴64的转速的变化速度的绝对值为输出侧预定值以下的情况下比超过输出侧预定值的情况下大的奖励的处理。

·例如如“关于行动变量”一栏中记载的那样，在将旋转电机的转矩或输出设为行动变量的情况下，也可以包含给予在电池的充电率处于预定范围内的情况下比没有处于预定范围内的情况下大的奖励的处理、或给予在电池的温度处于预定范围内的情况下比没有处于预定范围内的情况下大的奖励的处理。而且，例如如“关于行动变量”一栏中所记载的那样，在将压缩机的负荷转矩或空调装置的消耗电力包含在行动变量的情况下，也可以加上给予在车厢内的温度处于预定范围内的情况下比没有处于预定范围的情况下大的奖励的处理。

“车辆用控制系统”

·在图10所示的例子中，在数据解析中心110执行了S24b的全部处理，但是不限于此。例如，在数据解析中心110中，虽然执行S118～S130的处理，但是不执行关于奖励的算出处理、即S112～S116的处理，在S140的处理中，也可以设为发送S114、S116的处理的结果。

·作为车辆用控制系统，不限于通过控制装置70以及数据解析中心110而构成。例如，也可以取代数据解析中心110，采用用户所持的便携式终端，通过控制装置70以及便携式终端，构成车辆用控制系统。而且，例如也可以通过控制装置70、便携式终端、以及数据解析中心110来构成。这例如能够通过便携式终端执行图10的S94、S96的处理来实现。

“关于执行装置”

·作为执行装置，不限于具备CPU72(112)和ROM74(114)来执行软件处理。例如，也可以具备处理上述实施方式中所执行的软件处理的至少一部分的、例如ASIC等的专用的硬件电路。即，执行装置只要是以下的(a)～(c)中的其中一种构成即可。(a)具备按照程序执行全部上述处理的处理装置、和存储程序的ROM等的程序存储装置。(b)具备按照程序执行上述处理的一部分的处理装置以及程序存储装置、执行剩余的处理的专用的硬件电路。(c)具备执行全部上述处理的专用的硬件电路。在此，具备处理装置以及程序存储装置的软件执行装置、或专用的硬件电路也可以为多个。即，上述处理通过具备1个或多个的软件执行装置以及1个或多个的专用的硬件电路中的至少一方的处理电路(processing circuitry)来执行即可。程序存储装置即计算机可读介质，包含能够由通用或者专用的计算机访问的所有的可利用的介质。

“关于存储装置”

·在上述实施方式中，将存储关系规定数据DR的存储装置、和存储学习程序74b或控制程序74a的存储装置(ROM74)设为不同的存储装置，但是不限于此。

“关于内燃机”

·作为内燃机，不限于具备向在进气通路12喷射燃料的端口喷射阀作为燃料喷射阀，也可以具备向燃烧室24直接喷射燃料的缸内喷射阀，另外例如也可以具备端口喷射阀以及缸内喷射阀这两方。

·作为内燃机，不限于火花点火式内燃机，例如也可以是使用轻油等作为燃料的压缩点火式内燃机等。

“关于车辆”

·作为车辆，不限于推力生成装置仅为内燃机的车辆，例如也可以是具备内燃机和旋转电机的所谓的混合动力车辆。另外，例如，作为推力生成装置，也可以是不具备内燃机而具备旋转电机的所谓电动汽车和/或燃料电池车。

Claims

1.一种车辆用控制装置，具备处理电路以及存储装置，

在所述存储装置中，存储有规定车辆的状态和行动变量的关系的关系规定数据，所述行动变量是与所述车辆内的电子设备的操作有关的变量，

所述处理电路构成为执行：

取得处理，取得基于传感器的检测值的所述车辆的状态；

操作处理，基于由所述关系规定数据和通过所述取得处理取得的所述车辆的状态确定的所述行动变量的值，操作所述电子设备；

奖励算出处理，是基于通过所述取得处理取得的所述车辆的状态给予奖励的处理，且在所述车辆的特性满足基准的情况下所给予的所述奖励比所述车辆的特性不满足所述基准的情况下所给予的所述奖励大；以及

更新处理，将通过所述取得处理取得的所述车辆的状态、在所述电子设备的操作中使用了的所述行动变量的值、以及与该操作对应的所述奖励用作向预先确定的更新映射的输入，更新所述关系规定数据，

所述更新映射输出以使关于在按照所述关系规定数据操作所述电子设备的情况下的所述奖励的期待收益增加的方式更新了的所述关系规定数据，

在所述关系规定数据指定的所述行动变量的值为第1值时通过所述操作处理按照该第1值操作所述电子设备的处理，被设为在第1状况中能够执行、且在第2状况中无法执行。

2.根据权利要求1所述的车辆用控制装置，

与所述第1状况对应的所述车辆的状态为第1状态，

与所述第2状况对应的所述车辆的状态为第2状态，

在所述关系规定数据中，对于所述第1状态，将所述第1值定义为所述行动变量的值，另一方面，对于所述第2状态，不将所述第1值定义为所述行动变量的值。

3.根据权利要求1所述的车辆用控制装置，

所述操作处理包括限制处理，所述限制处理中，

在所述关系规定数据指定的所述行动变量的值为第1值的情况下，在所述第1状况中允许进行按照所述第1值操作所述电子设备的处理，并且，

在所述关系规定数据指定的所述行动变量的值为第1值的情况下，在所述第2状况中不允许进行按照所述第1值操作所述电子设备的处理。

4.根据权利要求3所述的车辆用控制装置，

所述第1状况是上次的所述行动变量的值与所述第1值之差的绝对值为预定值以下的状况，

所述第2状况是上次的所述行动变量的值与所述第1值之差的绝对值超过所述预定值的状况。

5.根据权利要求4所述的车辆用控制装置，

所述限制处理包括：

存储处理，存储所述行动变量的上次的值；和

限制所述行动变量的本次的值，以使得所述本次的值与所述行动变量的上次的值之差的绝对值成为预定值以下的处理。

6.根据权利要求3所述的车辆用控制装置，

所述关系规定数据，是规定将所述车辆的状态用作输入，输出所述行动变量的值的选择概率的函数近似器的数据，

所述更新映射包含：输出规定所述函数近似器的参数的更新量的映射，

所述限制处理包括：禁止进行按照所述函数近似器输出的选择概率成为低于预定值的所述行动变量的值的、所述电子设备的操作的处理，

所述第1状况是所述第1值的选择概率成为所述预定值以上的状况，

所述第2状况是所述第1值的选择概率成为低于所述预定值的状况。

7.根据权利要求4所述的车辆用控制装置，

所述限制处理包括：

存储处理，将表示用于算出所述行动变量的值的所述状态的变量的值的上次的值与所述关系规定数据一起存储；和

校正处理，在表示所述状态的变量的值的上次的值与本次的值之差的绝对值超过规定值的情况下，对表示所述状态的变量的值进行校正，以使得与所述上次的值之差的绝对值成为所述规定值以下。

8.一种车辆用控制系统，具备权利要求1～7中任一项所述的所述处理电路以及所述存储装置，

所述处理电路包含：搭载于所述车辆的第1执行装置、和与车载装置不同的第2执行装置，

所述第2执行装置构成为至少执行所述更新处理，

所述第1执行装置构成为至少执行所述取得处理以及所述操作处理。

9.一种车辆用控制装置，

具备权利要求8所述的所述第1执行装置。

10.一种车辆用学习装置，

具备权利要求8所述的所述第2执行装置。