CN113175385B

CN113175385B - 内燃机的控制装置以及控制方法

Info

Publication number: CN113175385B
Application number: CN202110087750.7A
Authority: CN
Inventors: 桥本洋介; 片山章弘; 大城裕太; 杉江和纪; 冈尚哉
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2020-01-27
Filing date: 2021-01-22
Publication date: 2023-05-05
Anticipated expiration: 2041-01-22
Also published as: US11268467B2; CN113175385A; JP7222366B2; JP2021116740A; US20210231070A1

Abstract

提供一种内燃机的控制装置以及控制方法。控制装置具备存储装置和执行内燃机的操作部的操作的执行装置。执行装置执行：第1运算处理，使用已适配数据，基于状态变量的检测值来运算操作量；第2运算处理，运算由关系规定数据和状态变量确定的值来作为操作量；强化学习处理，对关系规定数据进行更新；第1操作处理和第2操作处理，根据操作量的运算值来对操作部进行操作；切换处理，根据车辆的状态将对操作部进行操作的处理在第1操作处理与第2操作处理之间进行切换。

Description

内燃机的控制装置以及控制方法

技术领域

本公开涉及搭载于车辆的内燃机的控制装置以及控制方法。

背景技术

日本特开2016-006327号公报公开了基于对加速踏板的操作量进行滤波器处理后的值来对作为搭载于车辆的内燃机的操作部的节气门进行操作的控制装置。

上述滤波器被要求将同时满足内燃机的效率、排气性状、乘员的舒适性等的大量要求的值设定为节气门的操作量。因此，其适配需要熟练人员花费许多工时来进行。那样的实际情况对于节气门以外的发动机的操作部的操作量的适配也是同样的。

发明内容

一个技术方案的内燃机的控制装置构成为通过对搭载于车辆的内燃机的操作部进行操作来使该内燃机的控制量进行变化。另外，该控制装置具备：存储装置，其构成为预先存储关系规定数据和已适配数据，该关系规定数据是对状态变量与操作部的操作量的关系进行规定的数据，在车辆的行驶期间中被进行更新，该状态变量是表示包括内燃机的状态的车辆的状态的变量，该已适配数据是在基于状态变量的检测值的操作量的运算中使用的数据，在车辆的行驶期间中不被进行更新；和执行装置，其构成为执行操作部的操作。并且，该控制装置中的执行装置构成为执行：第1运算处理，使用已适配数据，基于状态变量的检测值来运算所述操作量；第2运算处理，运算由关系规定数据和状态变量确定的值来作为操作量；强化学习处理，基于利用通过第2运算处理运算出的操作量操作操作部时的状态变量的检测值来算出奖励，并且，基于状态变量、操作量以及奖励来对关系规定数据进行更新以使奖励的期待收益增加；第1操作处理，执行第1运算处理，并且，根据基于该第1运算处理的操作量的运算值来对操作部进行操作；第2操作处理，执行第1运算处理和第2运算处理这两方，并且，根据基于第2运算处理的操作量的运算值来对操作部进行操作；以及切换处理，根据车辆的状态将操作操作部的处理在第1操作处理与第2操作处理之间进行切换。

关于利用通过第1运算处理运算出的操作量对操作部进行操作的第1操作处理，需要车辆出厂前的操作量的适配，该第1运算处理运算是使用预先存储于存储装置的已适配数据的运算。与此相对，关于利用通过第2运算处理运算出的操作量对操作部进行操作的第2操作处理，在车辆的行驶期间中自动地进行操作量的适配，因此，能够减少车辆出厂前的熟练人员的操作量的适配所花费的工时，该第2运算处理是使用通过车辆行驶期间中的强化学习处理进行更新的关系规定数据的处理。但是，有时那样的强化学习需要根据车辆的各种各样的状态分别花费时间来进行，根据车辆的运用，适配的完成需要时间。因此，根据车辆的运用，与通过车辆行驶期间中的强化学习对操作量进行适配相比，有时车辆出厂前完成适配时能得到所希望的结果。对此，上述内燃机的控制装置中的执行装置在切换处理中在第1操作处理与第2操作处理之间切换根据车辆的状态来对操作部进行操作的处理。因此，根据上述内燃机的控制装置，能够适当地减少内燃机的操作部的操作量的适配涉及的熟练人员的工时。

在此，有时在第1操作处理下的操作量的运算中所使用的值包含每当运算操作量时与根据状态变量的值算出的更新量相应地被进行更新的值。该情况下的上述值的更新基于那时的状态变量的瞬时值来进行，但被更新后的值成为对基于到那为止的操作量的各运算的状态变量的值所算出的更新量进行累计而得到的值。这样，即使是在基于状态变量的瞬时值进行第1操作处理下的操作量的运算的情况下，有时操作量也被作为反映了到那为止的状态变量的值的推移的值来进行运算。在那样的情况下，第2操作处理中的状态变量的值的推移不反映于刚从第2操作处理向第1操作处理切换之后的操作量的运算值，因此，与从以前起持续进行了第1操作处理的情况不同的值会被设定为操作量。

在该点上，在上述内燃机的控制装置中，在利用通过第2运算处理运算出的操作量对操作部进行操作的第2操作处理中，也进行基于第1运算处理的操作量的运算。这样，在上述内燃机的控制装置中，在第2操作处理的执行期间中也持续进行基于第1运算处理的操作量的运算。因此，能够在刚从第2操作处理向第1操作处理切换之后，作为对该切换前的第2操作处理的执行期间中的状态变量的值的推移进行了反映的值来设定操作量。此外，基于第2操作处理的执行期间中的第1运算处理的操作量的运算值不被使用于实际的操作部的操作。因此，可以关于执行第2操作处理的车辆的状态下的第1运算处理的操作量只是进行简单的适配。因此，与不切换操作处理而仅通过第1操作处理对内燃机的操作部进行操作的情况相比，内燃机的操作部的操作量的适配涉及的熟练人员的工时变少。

此外，在上述内燃机的控制装置中，在第2操作处理的执行期间，执行第1运算处理和第2运算处理这两方的运算处理，因此，执行装置的运算负荷变高。与此相对，在第1运算处理中进行运算的操作量中存在值根据其各个时候的状态变量的瞬时值唯一决定的操作量的情况下，该操作量的运算结果不会在第2操作处理的执行期间中持续进行了运算的情况下和该执行期间中将运算中断了的情况下产生不同。由此，可以为：要抑制执行第2操作处理时的执行装置的运算负荷的增加，在基于第2操作处理的操作部的操作时，以限定于基于第1操作处理的操作部的操作时所运算的多个操作量中的一部分操作量来进行运算的方式进行第1运算处理。

另外，作为在第1运算处理下的操作量的运算时所执行的处理，有时包括根据控制量的目标值与检测值的偏差来对操作量进行修正的反馈修正处理。基于这样的反馈修正处理的控制量向目标值的收敛需要某种程度的时间，因此，当与从第2操作处理向第1操作处理的切换一起开始上述反馈修正处理时，有时控制量会暂时性地从目标值背离而内燃机的控制性恶化。由此，通过那样的反馈修正处理运算的操作量优选包含于在第2操作处理的执行期间中也持续进行第1运算处理的运算的上述一部分操作量。

另外，在第1运算处理中包含通过下述的缓变化处理运算的操作量的情况下，优选将该操作量包含于在第2操作处理的执行期间中也持续进行第1运算处理的运算的上述一部分操作量。在通过了缓变化处理的操作量的运算中使用已适配数据所包含的数据，该数据是对将作为特定状态变量的状态变量作为输入、且将操作量作为输出的映射进行规定的数据。并且，缓变化处理是将状态变量的检测值作为输入、且输出相对于该检测值具有延迟地变化的值来作为上述映射的输入值的处理和将上述映射的输出值作为输入、且输出相对于该输出值具有延迟地变化的值来作为操作量的运算值的处理中的某一方的处理。

此外，在进行手动加速行驶和自动加速行驶的车辆中，有时自动加速行驶中和手动加速行驶中的内燃机的运用会较大地不同，该手动加速行驶根据驾驶员的加速踏板操作来进行车辆的加减速，该自动加速行驶不基于加速踏板操作而以自动的方式进行所述车辆的加减速。并且，其结果，有时基于车辆行驶期间中的强化学习的适配和基于以往方法的车辆出厂前的适配这两个适配方法中的能得到更优选的结果的适配方法在自动加速行驶中和手动加速行驶中会不同。由此，在将上述控制装置应用于那样的车辆所搭载的内燃机的情况下可以将上述切换处理设为如下处理：根据车辆是进行手动加速行驶还是进行自动加速行驶，在第1操作处理与第2操作处理之间进行切换。

其他技术方案的内燃机的控制方法通过对搭载于车辆的内燃机的操作部进行操作来使该内燃机的控制量进行变化。该方法包括：预先存储关系规定数据，所述关系规定数据是对状态变量与所述操作部的操作量的关系进行规定的数据，在所述车辆的行驶期间中被进行更新，所述状态变量是表示包括所述内燃机的状态的所述车辆的状态的变量；预先存储已适配数据，所述已适配数据是在基于所述状态变量的检测值的所述操作量的运算中使用的数据，在所述车辆的行驶期间中不被进行更新；以及执行所述操作部的操作。执行所述操作部的操作包括执行：第1运算处理，使用所述已适配数据，基于所述状态变量的检测值来运算所述操作量；第2运算处理，运算由所述关系规定数据和所述状态变量确定的值来作为所述操作量；强化学习处理，基于利用通过所述第2运算处理运算出的所述操作量操作所述操作部时的所述状态变量的检测值来算出奖励，并且，基于所述状态变量、所述操作量以及所述奖励来对所述关系规定数据进行更新以使所述奖励的期待收益增加；第1操作处理，执行所述第1运算处理，并且，根据基于该第1运算处理的所述操作量的运算值来对所述操作部进行操作；第2操作处理，执行所述第1运算处理和所述第2运算处理这两方，并且，根据基于所述第2运算处理的所述操作量的运算值来对所述操作部进行操作；以及切换处理，根据所述车辆的状态将操作所述操作部的处理在所述第1操作处理与所述第2操作处理之间进行切换。

附图说明

图1是示意性地表示第1实施方式涉及的内燃机的控制装置的结构的图。

图2是该控制装置中的执行装置执行的处理的流程图。

图3是表示该控制装置执行的第1运算处理中的开口度指令值的运算涉及的处理的流程的控制框图。

图4是表示该控制装置执行的第1运算处理中的喷射量指令值的运算涉及的处理的流程的控制框图。

图5是表示该控制装置执行的第1运算处理中的点火正时指令值的运算涉及的处理的流程的控制框图。

图6是表示该控制装置执行的第2运算处理以及强化学习处理涉及的处理的流程的流程图。

图7的(a)是表示要求转矩及其缓变化值的推移的时间图，图7的(b)是表示开口度指令值的推移的时间图。

图8是表示第1运算处理中的开口度指令值的运算处理的变更例的处理的流程的流程图。

具体实施方式

以下，参照图1～图7对内燃机的控制装置的第一实施方式进行详细的说明。

图1表示本实施方式的控制装置70以及作为该控制装置70的控制对象的搭载于车辆VC1的内燃机10的结构。在内燃机10的进气通路12从上游侧开始依次设置有节气门14和燃料喷射阀16，被吸入到进气通路12的空气、从燃料喷射阀16喷射的燃料伴随着进气门18的开阀而流入到由气缸20和活塞22区划的燃烧室24。在燃烧室24内，燃料和空气的混合气伴随着点火装置26的火花放电而被供于燃烧，通过燃烧产生的能量经由活塞22被变换为曲轴28的旋转能量。被供于了燃烧的混合气伴随着排气门30的开阀而被作为排气排出到排气通路32。在排气通路32设置有作为对排气进行净化的后处理装置的催化剂34。

控制装置70为了对作为表示内燃机10的状态的控制量的转矩和排气成分比率等的参数进行控制，对节气门14、燃料喷射阀16以及点火装置26等的内燃机10的操作部进行操作。此外，在图1中记载了节气门14、燃料喷射阀16以及点火装置26各自的操作信号MS1～MS3。

控制装置70为了控制内燃机10的控制量，取得对内燃机10的状态进行检测的各种传感器的检测值。对内燃机10的状态进行检测的传感器包括对吸入空气量Ga进行检测的空气流量计80、对进气温度THA进行检测的进气温度传感器81、对进气压Pm进行检测的进气压传感器82、对作为节气门14的开口度的节气门开口度TA进行检测的节气门传感器83以及对曲轴28的旋转角θc进行检测的曲轴角传感器84。另外，上述传感器也包括输出与燃烧室24的爆震的产生状况相应的爆震信号Knk的爆震传感器85、和对在燃烧室24中燃烧了的混合气的空燃比AF进行检测的空燃比传感器86。另外，控制装置70也参照对作为加速踏板87的踏下量的加速器操作量PA进行检测的加速踏板传感器88、对车辆VC1的前后方向上的加速度Gx进行检测的加速度传感器89、对车速V进行检测的车速传感器90等的对车辆VC1的状态进行检测的传感器的检测值。

进一步，在车辆VC1设置有用于对手动加速行驶与自动加速行驶的行驶模式的切换以及/或者对自动加速行驶时的设定速度进行变更的操作面板92。手动加速行驶是根据驾驶员的加速踏板87的操作来进行车辆VC1的加减速的行驶模式。自动加速行驶是如下行驶模式：不基于加速踏板87的操作、即与加速踏板87的操作无关地，为了将车速V维持为设定速度而自动地进行车辆VC1的加减速。控制装置70在控制内燃机10的控制量使，也参照对手动加速行驶、自动加速行驶中的哪个被选择为车辆VC1的行驶模式进行表示的模式变量MV的值。

此外，对于从手动加速行驶向自动加速行驶的切换，通过在满足了既定的自动巡航允许条件的状态下在操作面板92中进行设定速度的设定以及自动巡航的开始操作来允许该切换。自动巡航允许条件包括正在汽车专用道路上行驶、车速V为既定的范围内的速度等的条件。

与此相对，对于从自动加速行驶向手动加速行驶的切换，通过驾驶员踩踏制动器踏板以及/或者在操作面板92中进行自动巡航的解除操作来实施该切换。

控制装置70具备作为执行内燃机10的控制涉及的处理的执行装置的CPU72和外围电路78。外围电路78包括生成对内部动作进行规定的时钟信号的电路、电源电路、复位电路等的电路。另外，控制装置70具备不能进行车辆VC1的行驶期间中所存储的数据等的重写的只读存储器74、和能够对车辆VC1行驶期间中所存储的数据等进行电重写的非易失性存储器76来作为存储装置。这些CPU72、只读存储器74、非易失性存储器76以及外围电路78能够经由局域网络79进行通信。

只读存储器74存储有内燃机10的控制用的控制程序74a。控制程序74a包括作为内燃机10的各操作部的操作量的运算用的程序的第1运算程序74b和第2运算程序74c这两个程序。另外，只读存储器74存储基于第1运算程序74b的操作量的运算中所使用的多个已适配数据DS。非易失性存储器76存储关系规定数据DR，该关系规定数据DR是对车辆VC1的状态与操作量的关系进行规定的数据，被使用于基于第2运算程序74c的操作量的运算。并且，只读存储器74存储学习程序74d，该学习程序74d是关系规定数据DR的更新用的程序。

已适配数据DS包括内燃机10的各操作部的操作量的运算中所使用的各种映射数据。映射数据是由输入变量的离散的值、相对于输入变量的各个值的输出变量的值的组构成的数据。映射数据包括要求转矩运算用的映射数据DS1、开口度运算用的映射数据DS2、基本点火正时运算用的映射数据DS3、界限延迟点火正时运算用的映射数据DS4等的数据。要求转矩运算用的映射数据DS1是将加速器操作量PA和车速V作为输入变量、且将作为内燃机10的转矩的要求值的要求转矩Tor＊作为输出变量的映射数据。开口度运算用的映射数据DS2是将内燃机10的转矩作为输入变量、且将产生该转矩所需要的节气门开口度TA的值作为输出变量的映射数据。基本点火正时运算用的映射数据DS3是将内燃机转速NE和进气量KL作为输入变量、且将基本点火正时Abse作为输出变量的映射数据。基本点火正时Abse是最佳点火正时和轻度爆震(trace knock)点火正时这两个正时中的更靠延迟侧的正时，最佳点火正时是内燃机10的转矩成为最大的点火正时，轻度爆震点火正时是能够抑制爆震的点火正时的提前界限。界限延迟点火正时运算用的映射数据DS4是将内燃机转速NE和进气量KL作为输入变量、且将界限延迟点火正时Akmf作为输出变量的映射数据。界限延迟点火正时Akmf是燃烧室24的混合气的燃烧不恶化的点火正时的延迟界限。

另外，已适配数据DS包括进气量运算用的模型数据DS5。模型数据DS5是流入到燃烧室24的进气量KL的运算中使用的内燃机10的进气行为的物理模型的数据，根据吸入空气量Ga、进气温度THA、进气压Pm、节气门开口度TA、内燃机转速NE等的输入来输出进气量KL。

这些映射数据DS1～DS4以及模型数据DS5被预先进行适配以使得使用这些数运算的操作量成为满足内燃机10的排气性状、燃料消耗率、驾驶员的舒适性等的要件的值。并且，映射数据DS1～DS4以及模型数据DS5在车辆VC1的出厂前被预先写入到只读存储器74，例如设为仅能够使用设置在整备设施的专用设备来进行更新。即，已适配数据DS为在车辆VC1的行驶期间中不被进行更新的数据。

图2表示本实施方式涉及的控制装置70执行的内燃机10的各操作部的操作涉及的处理的步骤。图2所示的处理通过CPU72按既定的控制周期反复执行存储于只读存储器74的控制程序74a来实现。此外，以下通过在开头赋予了“S”的数字表示各处理的步骤编号。在本实施方式中，通过图2的处理进行如下的切换处理：根据车辆VC1是进行手动加速行驶、还是进行自动加速行驶，切换是利用通过第1运算处理运算出的操作量对操作部进行操作、还是利用通过第2运算处理运算出的操作量对操作部进行操作。

当开始图2所示的一系列处理时，CPU72首先在步骤S100中取得模式变量MV的值。接着，CPU72在步骤S110中判定模式变量MV的值表示的车辆VC1的行驶模式是否为自动加速行驶。

在车辆VC1的行驶模式为自动加速行驶的情况下(S110：是)，CPU72在步骤S120中执行通过第1运算程序74b运算内燃机10的各操作部的操作量的第1运算处理。并且，CPU72在接下来的步骤S130中基于第1运算处理下的操作量的运算值对内燃机10的各操作部进行了操作之后，暂时结束图示的处理。

与此相对，在车辆VC1的行驶模式为手动加速行驶的情况下(S110：否)，CPU72在步骤S140中执行通过第2运算程序74c运算内燃机10的各操作部的操作量的第2运算处理。并且，CPU72在接下来的步骤S150中根据第2运算处理下的操作量的运算值来对内燃机10的各操作部进行操作。进一步，CPU72在接下来的步骤S160中实施通过学习程序74d对关系规定数据DR进行更新的强化学习处理。而且，CPU72在接下来的步骤S170中通过第1运算处理运算了内燃机10的一部分操作部的操作量之后，暂时结束图2所示的处理。

如上所述，CPU72在自动加速行驶期间中执行利用通过第1运算处理运算出的操作量对操作部进行操作的内燃机10的操作处理，在手动加速行驶期间中执行利用通过第2运算处理运算出的操作量对内燃机10进行操作、且通过第1运算处理运算一部分操作量的内燃机10的操作处理。在以下的说明中，将在自动加速行驶期间中执行的上述操作处理记载为第1操作处理，将在手动加速行驶期间中执行的上述操作处理记载为第2操作处理。即，图2的步骤S120和步骤S130的处理对应于第1操作处理，图2的步骤S140、步骤S150以及步骤S170的处理对应于第2操作处理。

接着，对第1运算处理中的内燃机10的各操作部的操作量的运算进行说明。在第1运算处理中，使用预先存储于只读存储器74的已适配数据DS运算内燃机10的各操作部的操作量。在此，对作为内燃机10的操作部的操作量中的节气门14的操作量的开口度指令值TA＊、作为燃料喷射阀16的操作量的喷射量指令值Qi以及作为点火装置26的操作量的点火正时指令值Aop这3个操作量的第1运算处理下的运算方式进行说明。此外，在本实施方式中，在图2的步骤S120中，运算开口度指令值TA＊、喷射量指令值Qi以及点火正时指令值Aop，但在图2的步骤S170中，仅运算那些中的开口度指令值TA＊和喷射量指令值Qi。

图3表示第1运算处理下的开口度指令值TA＊的运算涉及的处理步骤。此外，在以下的说明中，将基于第1运算处理的开口度指令值TA＊的运算值记载为“TA＊[1]”，将基于第2运算处理的开口度指令值TA＊的运算值记载为“TA＊[2]”。

如图3所示，在第1运算处理中的开口度指令值TA＊[1]的运算时，首先，运算将加速器操作量PA和车速V作为了输入的映射数据DS1的输出来作为要求转矩Tor＊的值。此外，在自动加速行驶时的、即图2的步骤S120的开口度指令值TA＊[1]的运算中，不是使用驾驶员的实际的加速踏板的操作量，而是使用将为了使车速V保持为设定速度所需要的车辆VC1的加减速的要求量换算为加速踏板的操作量而得到的假想的加速器操作量来作为向映射数据DS1输入的加速器操作量PA。

接着，运算对要求转矩Tor＊实施了缓变化处理而得到的值来作为要求转矩缓变化值Torsm＊。缓变化处理是将要求转矩Tor＊作为输入、将相对于该要求转矩Tor＊具有延迟地进行跟踪的值作为要求转矩缓变化值Torsm＊的值进行输出的滤波器处理。在本实施方式中，采用了将要求转矩Tor＊的移动平均值作为要求转矩缓变化值Torsm＊的值进行输出的滤波器处理来作为缓变化处理。通过这样的缓变化处理，能对如下状况进行抑制，该状况为：由于节气门开口度TA的急剧变化，内燃机转速NE骤变而损害驾驶员的舒适性，因进气的响应延迟而排气性状恶化。并且，在第1运算处理中，运算将要求转矩缓变化值Torsm＊作为了输入的映射数据DS2的输出来作为节气门开口度TA的指令值即开口度指令值TA＊[1]的值。

此外，在车辆VC1处于自动加速行驶中、且在图2的步骤S120中实施了第1运算处理的情况下，在接下来的步骤S130中对节气门开口度TA向开口度指令值TA＊[1]的变更进行指示的指令信号MS1被输出到节气门14。另一方面，在车辆VC1处于手动加速行驶中、且在图2的步骤S170中实施了第1运算处理的情况下，该步骤S170中运算开口度指令值TA＊[1]，但其运算结果不被使用于实际的节气门14的操作。

图4表示第1运算处理下的喷射量指令值Qi的运算涉及的CPU72的处理步骤。此外，在以下中，将基于第1运算处理的喷射量指令值Qi的运算值记载为“Qi[1]”，并且，将基于第2运算处理的喷射量指令值Qi的运算值记载为“Qi[2]”。

如图4所示，在第1运算处理下的喷射量指令值Qi[1]的运算时，首先运算将吸入空气量Ga、进气温THA、进气压Pm、节气门开口度TA、内燃机转速NE等作为了输入的模型数据DS5的输出来作为进气量KL的值。并且，运算对进气量KL除以目标空燃比AF＊而得到的商来作为基本喷射量Qb的值，目标空燃比AF＊是在燃烧室24中燃烧的混合气的空燃比的目标值。

另外，在喷射量指令值Qi[1]的运算时，运算空燃比反馈修正值FAF。在自动加速行驶时、即图2的步骤S120的喷射量指令值Qi[1]的运算时，根据空燃比AF的检测值相对于目标空燃比AF＊的偏差来运算空燃比反馈修正值FAF。与此相对，在手动加速行驶时、即图2的步骤S150的喷射量指令值Qi[1]的运算时，根据假想空燃比vAF相对于目标空燃比AF＊的偏差来运算空燃比反馈修正值FAF。假想空燃比vAF被作为对于空燃比AF的检测值、基于第1运算处理的喷射量指令值Qi[1]的运算值以及基于第2运算处理的喷射量指令值Qi[2]的运算值各自的前次的控制周期的值满足式(1)的关系的值来加以求出。这样的假想空燃比vAF的值表示代替根据基于第2运算处理的喷射量指令值Qi[2]的运算值对燃料喷射阀16进行操作、而假定为了根据基于第1运算处理的喷射量指令值Qi[1]对燃料喷射阀16进行了操作的情况下的空燃比AF的值。

vAF＝(Qi[2]/Qi[1])×AF...(1)

此外，在本实施方式中，通过PID处理进行空燃比反馈修正值FAF的运算。即，运算将下述的比例项、积分项以及微分项相加而得到的和来作为空燃比反馈修正值FAF的值。比例项是对空燃比AF或者假想空燃比vAF相对于目标空燃比AF＊的偏差乘以既定的比例增益而得到的积。另外，积分项是对上述偏差的时间积分值乘以既定的积分增益而得到的积。并且，微分项是对上述偏差的时间微分值乘以既定的微分增益而得到的积。

另外，在基于第1运算处理的喷射量指令值Qi[1]的运算时，进行空燃比学习值KG的学习处理。对于空燃比学习值KG的学习处理，通过基于内燃机转速NE、进气量KL稳定了的内燃机10的稳态运转时的空燃比反馈修正值FAF的值，以如下的(1)～(3)的方式对空燃比学习值KG的值进行更新来进行该学习处理。(1)在空燃比反馈修正值FAF的绝对值小于既定的更新判定值的情况下，保持空燃比学习值KG的值。(2)在空燃比反馈修正值FAF为正值、且其绝对值为既定的更新判定值以上的情况下，以将从更新前的值减去既定的更新量而得到的差作为更新后的值的方式对空燃比学习值KG的值进行更新。(3)在空燃比反馈修正值FAF为负值、且其绝对值为更新判定值以上的情况下，以将对更新前的值加上上述更新量而得到的和作为更新后的值的方式对空燃比学习值KG的值进行更新。

并且，在第1运算处理中，运算将基本喷射量Qb、空燃比反馈修正值FAF以及空燃比学习值KG相加而得到的和来作为喷射量指令值Qi的值。此外，在车辆VC1处于自动加速行驶中、其在图2的步骤S120中实施了第1运算处理的情况下，在该步骤S120中运算喷射量指令值Qi[1]，并且，在接下来的步骤S130中，对该喷射量指令值Qi[1]的值量的燃料喷射进行指示的指令信号MS2被输出至燃料喷射阀16。另一方面，在车辆VC1处于手动加速行驶中、且在图2的步骤S170中实施了第1运算处理的情况下，在该步骤S170中运算喷射量指令值Qi[1]，但其运算结果不被使用于实际的燃料喷射阀16的操作。

图5表示点火正时指令值Aop的运算涉及的CPU72的处理步骤，该点火正时指令值Aop是第1运算处理中的点火装置26的操作量。此外，在以下的说明中，将基于第1运算处理的点火正时指令值Aop的运算值记载为“Aop[1]”，将基于第2运算处理的点火正时指令值Aop的运算值记载为“Aop[2]”。

在第1运算处理中的点火正时指令值Aop[1]的运算时，首先，运算将内燃机转速NE和进气量KL作为输入的映射数据DS3的输出来作为基本点火正时Abse的值。另外，运算将内燃机转速NE和进气量KL作为了输入的映射数据DS4的输出来作为界限延迟点火正时Akmf的值。并且，运算从基本点火正时Abse减去界限延迟点火正时Akmf而得到的差来作为界限延迟量Akmax的值。

另外，在第1运算处理中的点火正时指令值Aop[1]的运算时，进行基于爆震信号Knk的爆震控制量Akcs的运算处理。对于爆震控制量Akcs的运算，通过以下述(4)、(5)的方式对爆震控制量Akcs的值进行更新来进行该运算。(4)在爆震信号Knk是表示发生爆震的值的情况下，以将对更新前的值加上既定的爆震延迟量而得到的和作为更新后的值的方式对爆震控制量Akcs的值进行更新。(5)在爆震信号Knk是表示没有发生爆震的值的情况下，以将从更新前的值减去既定的爆震提前量而得到的差作为更新后的值的方式对爆震控制量Akcs的值进行更新。此外，对于爆震延迟量设定正值，对于爆震提前量设定比爆震延迟量大的值。

接着，运算对限界延迟量Akmax加上爆震控制量Akcs而得到的和来作为点火正时延迟量Aknk的值。并且，运算从基本点火正时Abse减去点火正时延迟量Aknk而得到的差来作为点火正时指令值Aop[1]的值。

此外，如上述那样，第1运算处理下的点火正时指令值Aop[1]的运算仅在自动加速行驶时进行。即，在车辆VC1处于自动加速行驶中的情况下的图2的步骤S120的第1运算处理中运算点火正时指令值Aop[1]，但在车辆VC1处于手动加速行驶中的情况下的图2的步骤S170的第1运算处理中不运算点火正时指令值Aop[1]。此外，在图2的步骤S130中，对与在步骤S120中运算出的点火正时指令值Aop[1]对应的正时的点火的执行进行指示的指令信号MS3被输出至点火装置26。

接着，对车辆VC1处于手动加速行驶中的情况下的图2的步骤S140～S160中的基于第2运算处理的操作量的运算、与其运算值相应的操作部的操作以及强化学习涉及的一系列处理进行说明。在第2运算处理中，根据由存储于非易失性存储器76的关系规定数据DR和车辆VC1的状态确定的操作量，进行内燃机10的各操作部的操作。

此外，本实施方式中的关系规定数据DR被设为确定行动价值函数Q和策略π的数据。行动价值函数Q是对与状态s和行动a的各自变量相应的期待收益的值进行表示的表形式的函数。在本实施方式中，状态s基于内燃机转速NE、进气量KL、吸入空气量Ga、进气温度THA、进气压Pm、空燃比AF、加速器操作量PA以及车速V这8个变量来决定。另外，在本实施方式中，行动a基于作为内燃机10的操作部的操作量的开口度指令值TA＊[2]、喷射量指令值Qi[2]以及点火正时指令值Aop[2]这3个变量来决定。即，状态s为8维的矢量，行动a为3维的矢量。另外，本实施方式涉及的行动价值函数Q(s，a)被设为表形式的函数。

图6表示第2运算处理和强化学习处理的各处理涉及的CPU72的处理步骤。图6所示的一系列处理对应于图2的步骤S140～S160的处理。即，图6的S510～S520的处理对应于在图2的步骤S140中CPU72进行处理。图6的步骤S530的处理对应于在图2的步骤S150中CPU72进行的处理。图6的步骤S540～S590的处理对应于在图2的步骤S160中CPU72进行的处理。

当开始图6所示的一系列处理时，首先，在步骤S500中，“t”的值被复位为“0”。接着，在步骤S510中，读入车辆VC1的最新的状态s，该所读入的状态s的各变量的值被作为状态s[t]的各变量的值加以代入。接着，在步骤S520中，按照由关系规定数据DR规定的策略π[t]，选择行动a[t]。在此的行动a[t]意味着是对于状态s[t]所选择出的行动a。另外，策略π[t]在态s[t]下将选择使行动价值函数Q(s[t]，a)最大化的行动a、即贪婪(greedy)的行动的概率设为最大，并且，将那以外的行动a的选择概率也不设为“0”。通过有时这样地不采用贪婪的行动，能够进行用于寻找最佳的行动的搜索。这样的策略π通过ε贪婪行动选择方法以及/或者Softmax行动选择方法来实现。并且，接着，在步骤S530中，根据被选择为行动a[t]的开口度指令值TA＊[2]、喷射量指令值Qi[2]以及点火正时指令值Aop[2]，操作信号MS1～MS3被分别输出到节气门14、燃料喷射阀16以及点火装置26。

然后，在步骤S540和步骤S550中实施奖励算出处理。在奖励算出处理中，首先，在步骤S540中读入与上述行动a[t]相应的操作部的操作后的最新的状态s，该所读入了的状态s的各变量的值被设定为状态s[t+1]的各变量的值。并且，在接下来的步骤S550中，基于状态s[t+1]，算出由行动a[t]产生的奖励r[t]。奖励r[t]被作为与根据空燃比AF相对于目标空燃比AF＊的偏差的累计值等求出的内燃机10的排气特性有关的奖励、与根据喷射量指令值Qi的累计值等求出的内燃机10的燃料消耗率有关的奖励、与根据加速度Gx的累计值等求出的驾驶员的舒适性有关的奖励等的观点不同的多个奖励之和来算出。

接着，在步骤S560中，算出误差δ[t]，该误差δ[t]用于算出对行动价值函数Q中的状态s[t]、行动a[t]的情况下的行动价值函数Q(s[t]，a[t])的值进行更新的更新量。在本实施方式中，使用离策略型TD法(off-policy TD method)算出误差δ[t]。即，使用打折率γ，将误差δ[t]设为从对行动价值函数Q(s[t+1]，A)中的最大值乘以打折率后的值和奖励r[t]之和减去行动价值函数Q(s[t]，a[t])而得到的值。此外，“A”意味着行动a的集合。接着，在步骤S570中，通过将对误差δ[t]乘以学习率α而得到的积加到行动价值函数Q(s[t]，a[t])，从而对行动价值函数Q(s[t]，a[t])进行更新。即，由关系规定数据DR规定的行动价值函数Q(s，a)中的自变量成为状态s[t]和行动a[t]的行动价值函数Q(s，a)的值变化“α·δ[t]”。通过这些步骤S560和步骤S570的处理，关系规定数据DR被进行更新以使奖励r[t]的期待收益增加。这是为了通过更新行动价值函数Q(s[t]，a[t])，行动价值函数Q(s[t]，a[t])被更新为更高精度地表现实际的期待收益的值。

接着，在步骤S580中，对各自变量判定行动价值函数Q的值是否已收敛。在判定为未收敛的情况下(否)，在步骤S590中“t”的值增加了“1”之后，处理回到步骤S530。与此相对，在判定为行动价值函数Q的值已收敛的情况下(S580：是)，暂时结束图6所示的一系列处理。

对本实施方式的作用和效果进行说明。

本实施方式中的控制装置70具有第1运算处理和第2运算处理这两个处理来作为运算内燃机10的各操作部的操作量的处理。在第1运算处理中，使用预先存储于只读存储器74的已适配数据DS运算操作量。这样的第1运算处理下的操作量的运算中所使用的已适配数据DS需要在车辆VC1的出厂前预先完成适配。

与此相对，在第2运算处理中，运算通过由存储于非易失性存储器76的关系规定数据DR和车辆VC1的状态确定的操作部的操作量。并且，在第2操作处理的执行期间中，根据作为基于该第2运算处理的操作量的运算值的操作部的操作的结果而变化的车辆VC1的状态来算出奖励r，并且，关系规定数据DR被进行更新以使得该奖励r的期待收益增加。即，在基于第2运算处理的运算值的内燃机10的操作部的操作时，进行基于强化学习的操作量的适配。若这样在车辆VC1的行驶期间中进行基于强化学习的操作量的适配，则能够减少车辆出厂前的熟练人员的操作量的适配所花费的工时。然而，车辆行驶期间中的基于强化学习的操作量的适配伴随着控制装置70的运算负荷的增大。对于这样车辆行驶期间中的基于强化学习的操作量的适配，具有能够减少熟练人员的操作量的适配所花费的工时这一优点，另一方面，存在会使控制装置70的运算负荷增加这一缺点。另外，基于强化学习的操作量的适配的完成需要某程度的时间，因此，到适配完成之前，也存在内燃机10的控制性恶化的风险。

搭载了应用本实施方式的控制装置70的内燃机10的车辆VC1为进行手动加速行驶和自动加速行驶的车辆，该手动加速行驶根据驾驶员的加速踏板操作来进行车辆VC1的加减速，该自动加速行驶不基于加速踏板操作而以自动的方式进行车辆VC1的加减速。在手动加速行驶时和自动加速行驶时，车辆VC1可取的状态存在不同，因此，操作量的适配也需要分别个别地进行。此外，车辆VC1的自动加速行驶仅限于在汽车专用道路的行驶期间中驾驶员选择了自动加速行驶的情况下被实施。因此，自动加速行驶只以比手动加速行驶低的频度进行实施的可能性高，当通过强化学习进行自动加速行驶时的操作量的适配时，存在该适配未完成的状态较长时间地持续的风险。

于是，在本实施方式中，关于所设想的实施频度高的手动加速行驶，通过车辆行驶期间中的强化学习进行操作量的适配，另一方面，关于所设想的实施频度低的自动加速行驶，通过以往方法进行操作量的适配。在这样的本实施方式中，关于自动加速行驶，需要通过以往方法对操作量进行适配，与关于手动加速行驶、自动加速行驶这两方通过以往方法对操作量进行适配的情况相比，熟练人员的适配所花费的工时少就能实现。

另外，如上述那样，在第1运算处理下的节气门14的开口度指令值TA＊的运算时，进行将要求转矩Tor＊作为输入、且输出相对于该要求转矩Tor＊的变化具有延迟地进行跟踪的值来作为要求转矩缓变化值Torsm＊的缓变化处理。并且，运算将要求转矩缓变化值Torsm＊作为了输入的映射数据DS2的输出来作为开口度指令值TA＊[1]的值。

图7的(a)中，由双点划线表示要求转矩Tor＊急剧减少了时的要求转矩Tor＊，由实线表示那时的要求转矩缓变化值Torsm＊的推移。另外，图7的(b)中，由实线表示那时的开口度指令值TA＊[1]的推移。这样，开口度指令值TA＊[1]被作为相对于要求转矩Tor＊的变化具有延迟地变化的值来进行运算。在第1运算处理中，通过缓变化处理，抑制由进气的响应延迟导致的内燃机10的排气性状的恶化、由内燃机转速NE的骤变导致的驾驶员的舒适性的降低。

对此，如上述那样，在第2运算处理中，作为将车辆VC1的状态s作为了输入的关系规定数据DR的输出，运算内燃机10的各操作部的操作量。另外，对于第2运算处理的操作量的适配，通过基于根据内燃机10的排气性状、驾驶员的舒适性的观点算出的奖励r的强化学习来进行该适配。若适当地进行这样的基于强化学习的适配，则第2运算处理的开口度指令值TA＊[2]也被与第1运算处理的开口度指令值TA＊[1]同样地进行运算以使得成为相对于要求转矩Tor＊的变化具有延迟地变化的值。此外，在以下的说明中，将从根据要求转矩Tor＊的变更而开口度指令值TA＊的值开始了变化的时间点到开口度指令值TA＊收敛于与变更后的要求转矩Tor＊相应的值的时间点为止的开口度指令值TA＊变化的期间记载为过渡期间。

在此设为：在图7所示的过渡期间中的时刻t1，车辆VC1从自动加速行驶切换为手动加速行驶，使用了第2运算处理的开口度指令值TA＊[2]的节气门14的操作结束，使用了第1运算处理的开口度指令值TA＊[1]的节气门14的操作已开始。并且，考虑如下情况：在该时刻t1，仅通过第2运算处理进行开口度指令值TA＊的运算，基于第1运算处理的运算从时刻t1开始。图7中，分别由虚线表示该情况下的要求转矩缓变化值Torsm＊和开口度指令值TA＊的推移。此外，在该情况下，在时刻t1以前，第2运算处理的开口度指令值TA＊[2]被使用于节气门14的操作，在时刻t1以后，第1运算处理的开口度指令值TA＊[1]被使用于节气门14的操作。在该情况下，缓变化处理也在时刻t1开始，因此，时刻t1以前的要求转矩Tor＊的推移不反映于时刻t1的第1运算处理的开口度指令值TA＊[1]。因此，在从基于第2运算处理的操作量的运算值的操作向基于第1运算处理的操作量的运算值的操作的切换前后，在开口度指令值TA＊会产生高低差，内燃机10的控制性会恶化。

对此，在本实施方式中，CPU72在使用第2运算处理的开口度指令值TA＊[2]对节气门14进行操作的时刻t1以前的期间也进行基于第1运算处理的开口度指令值TA＊[1]的运算。在这样的情况下，能够将反映了时刻t1以前的要求转矩Tor＊的推移的值设定为开始使用了第1运算处理的开口度指令值TA＊[1]的节气门14的操作的时刻t1的开口度指令值TA＊[1]。因此，在将内燃机10的操作部的操作中所使用的操作量的运算处理从第2运算处理切换为第1运算处理时，在开口度指令值TA＊难以产生高低差。

进一步，在本实施方式中，在第1运算处理中进行基于空燃比反馈修正值FAF的喷射量指令值Qi[1]的修正、即空燃比反馈修正。并且，通过这样的空燃比反馈修正，对由燃料喷射阀16的喷射特性、内燃机10的进气特性等的个体差异、历时变化导致的空燃比AF相对于目标空燃比AF＊的偏移进行补偿。基于这样的空燃比反馈修正的空燃比AF向目标空燃比AF＊的收敛需要某种程度的时间。因此，若设为在结束第2操作处理而开始第1操作处理时、空燃比反馈修正也从空燃比反馈修正值FAF的值为“0”的状态开始，则存在空燃比AF暂时性地从目标空燃比AF＊背离而内燃机10的排气性状恶化的风险。

对此，在本实施方式中，在使用基于第2运算处理的喷射量指令值Qi[2]的运算值对燃料喷射阀16进行操作的车辆VC1的手动加速行驶时，也继续进行基于第1运算处理的喷射量指令值Qi[1]的运算。在此时的第1运算处理的喷射量指令值Qi[1]的运算时，根据第1运算处理和第2运算处理各自的喷射量指令值Qi[1]、Qi[2]以及空燃比AF的检测值运算假想空燃比vAF。对于该假想空燃比vAF的值，运算假定为了使用第1运算处理的喷射量指令值Qi[1]对燃料喷射阀16进行操作的情况下的空燃比AF的值，并且，使用该假想空燃比vAF来算出空燃比反馈修正值FAF而运算喷射量指令值Qi。由此，在使用了第2运算处理的喷射量指令值Qi[2]的燃料喷射阀16的操作中，也继续进行第1运算处理中的喷射量指令值Qi[1]的空燃比反馈修正。因此，难以产生从使用了第2运算处理的喷射量指令值Qi[2]的操作向使用了第1运算处理的喷射量指令值Qi[1]的操作的切换后的空燃比AF从目标空燃比AF＊的背离。

此外，在这样的本实施方式中，在用通过第2运算处理运算出的操作量对内燃机10的操作部进行操作的第2操作处理的执行期间中，也继续进行基于第1运算处理的开口度指令值TA＊[1]、喷射量指令值Qi[1]的运算。但是，此时的开口度指令值TA＊[1]、喷射量指令值Qi[1]的运算值并不被使用于实际的节气门14、燃料喷射阀16的操作。因此，可以只是对执行第2操作处理的状态、即手动加速行驶时的开口度指令值TA＊[1]、喷射量指令值Qi[1]的值进行简单的适配。另外，关于点火正时指令值Aop[1]等其他操作量，在手动加速行驶时不进行运算，因此，不需要手动加速行驶中的那些操作量的车辆出厂前的适配。这样，在本实施方式的内燃机10的控制装置中，与在车辆出厂前进行自动加速行驶和手动加速行驶这两方中的内燃机10的操作量的适配的情况相比，熟练人员的适配所花费的工时变少。

根据以上的本实施方式，能够实现以下效果。

(1)在上述实施方式中，所设想的实施的频度高的手动加速行驶中的内燃机10的操作部的操作量的适配通过车辆行驶期间中的强化学习来进行。与此相对，所设想的实施的频度低、被认为车辆行驶期间中的强化学习的实施机会有限的自动加速行驶中的操作部的适配通过以往方法进行。由此，能够分别通过适当的方法来实施手动加速行驶、自动加速行驶这两方中的操作量的适配，并且，能够减少熟练人员的适配所花费的工时。

(2)手动加速行驶时的操作量的适配通过车辆行驶期间中的强化学习来进行。因此，内燃机10的个体差异以及/或者历时变化被反映于手动加速行驶时的内燃机10的操作部的操作量的适配结果，因那样的个体差异以及/或者历时变化引起的内燃机10的控制性的恶化被抑制。

(3)在用通过第2运算处理运算出的操作量对内燃机10进行操作的第2操作处理的执行期间中，也继续进行第1运算处理的开口度指令值TA＊[1]的运算。因此，在从第2操作处理向第1操作处理的切换时，难以在开口度指令值TA＊产生高低差。

(4)在第2操作处理的执行期间中，也继续进行第1运算处理的喷射量指令值Qi[1]的运算。因此，能抑制从第2操作处理向第1操作处理的切换后的内燃机10的排气性状的恶化。

本实施方式可以如以下那样进行变更来实施。本实施方式以及以下的变更例可以在技术上不矛盾的范围内相互组合来实施。

·关于自动加速行驶、手动加速行驶

上述实施方式中的自动加速行驶设为了为了将车速V维持为设定速度而以自动的方式进行车辆VC1的加减速的行驶模式，但也可以设为：对行驶中的道路、周边的车辆以及/或者行人进行检测，进行基于该检测结果来以自动的方式进行车辆VC1的加减速的行驶模式来作为自动加速行驶。另外，也可以设为：在自动加速行驶中，在车辆VC1的加减速的基础上以自动的方式进行车辆VC1的转向和制动中的至少一方。另外，也可以设为：在手动加速行驶中，根据驾驶员的加速踏板操作来以手动的方式进行车辆VC1的加减速，另一方面，以自动的方式进行车辆VC1的转向和制动中的至少一方。

·关于切换处理

在上述实施方式中，在自动加速行驶期间中执行第1操作处理，在手动加速行驶期间中执行第2操作处理。在以主要进行自动加速行驶、仅在有限的状况下进行手动加速行驶的方式进行运用的车辆等中，有时基于车辆行驶期间中的强化学习的操作量的适配适于自动加速行驶，但不适于手动加速行驶。在那样的情况下也可以设为：在自动加速行驶期间中执行第2操作处理，在手动加速行驶期间中执行第1操作处理。

进一步，也可以设为：将基于切换处理的作为第1操作处理、第2操作处理的切换对象的操作部限定于内燃机的操作部中的一部分操作部，关于其余的操作部，在手动、自动的任何加速器操作行驶中都通过第1操作处理和第2操作处理中的某一操作处理进行操作。

另外，也可以设为：根据上述以外的车辆VC1的状态，进行操作处理的切换。有时在内燃机10的运转区域例如存在高负荷高转速区域等的使用频度低的区域。在使用频度低的运转区域中，与其他运转区域相比，基于车辆行驶期间中的强化学习的操作量的适配延迟。因此，考虑在使用频度低的运转区域中，通过第1操作处理对内燃机10的操作部进行操作，在使用频度高的运转区域中，通过第2操作处理对内燃机10的操作部进行操作。

·关于内燃机的操作部

也可以采用节气门14、燃料喷射阀16以及点火装置26以外的操作部来作为第1操作处理和第2操作处理的切换对象的内燃机10的操作部。例如也可以在具备使排气的一部分再循环到进气中的排气再循环机构、并且在该排气再循环机构设置有对排气的再循环量进行调整的EGR阀的内燃机的情况下，采用EGR阀来作为第1操作处理和第2操作处理的切换对象的内燃机的操作部。另外，也可以在具备使进气门18以及/或者排气门30的动阀特性为可变的可变动阀机构的内燃机的情况下，采用该可变动阀机构来作为第1操作处理和第2操作处理的切换对象的内燃机的操作部。

·关于状态s

在上述实施方式中，将内燃机转速NE、进气量KL、吸入空气量Ga、进气温度THA、进气压Pm、空燃比AF、加速器操作量PA以及车速V这8个变量作为了状态s，但也可以从状态s放弃那些变量中的一个以上，和/或将表示内燃机10、车辆VC1的状态的那些变量以外的变量添加到状态s。

·关于奖励r

基于状态s的奖励r的算出也可以以与上述实施方式不同的方式进行。例如也可以取得氮氧化物、微颗粒物质等的排气的有害成分的排出量，并且，基于该排出量算出与内燃机10的排气特性有关的奖励，测到车室的振动、噪声等级，并且，基于该测定结果算出与舒适性有关的奖励。

·关于行动价值函数Q

在上述实施方式中，将行动价值函数Q设为了表形式的函数，但不限于此。例如也可以使用函数近似器来作为行动价值函数Q。另外，也可以设为：代替使用行动价值函数Q，而将状态s和行动a作为自变量，并且，用将采取行动a的概率作为因变量的函数近似器表现策略π，根据奖励r对该策略π进行更新。

·关于关系规定数据DR的更新

在上述实施方式中，通过离策略型TD法对关系规定数据DR进行更新，但例如也可以通过如SARSA法那样的同策略型TD法(on-policy TD method)来进行该更新。另外，也可以使用资格迹法(eligibility trace method)来作为同策略型的更新手法。进一步，也可以通过蒙特卡罗法等的上述以外的方法来进行关系规定数据DR的更新。

·关于反馈修正处理

对于上述实施方式中的第1运算处理下的燃料喷射阀16的喷射量指令值Qi的运算，通过与空燃比AF相应的反馈修正处理来进行。可以设为：除了喷射量指令值Qi之后，在通过第1操作处理运算的操作量中还存在通过反馈修正处理运算的操作量的情况下，该操作量也包含于在第2操作处理中继续进行基于第1运算处理的运算的操作量。

此外，在此的反馈修正处理是指如下处理。即，反馈修正处理是指如下处理：将车辆VC1的状态变量中的一个作为控制量，根据该控制量的目标值和检测值的偏差运算反馈修正值，并且，通过该反馈修正值对使用已适配数据DS运算出的操作量的值进行修正。

·关于缓变化处理

对于上述实施方式中的第1运算处理下的节气门14的开口度指令值TA＊的运算，通过缓变化处理来进行该运算。并且，在第2操作处理的执行期间中，也继续进行通过了缓变化处理的第1运算处理的开口度指令值TA＊的运算。可以设为：除了开口度指令值TA＊之外，在通过第1运算处理运算的操作量中也存在通过缓变化处理运算的操作量的情况下，该操作量也包含于在第2操作处理中持续进行基于第1运算处理的运算的操作量。

此外，在此的缓变化处理是指如下处理。缓变化处理下的操作量的运算使用预先存储于存储装置的、对将车辆的状态变量所包含的变量即状态变量作为输入、且将操作量作为输出的映射进行规定的已适配的数据来进行。并且，缓变化处理为如下两个处理A、B中的某一方的处理。处理A是将状态变量的检测值作为输入、且将相对于该检测值具有延迟地变化的值作为上述映射的输入值进行输出的处理。与此相对，处理B是将上述映射的输出值作为输入、且将相对于该输出值具有延迟地变化的值作为操作量的运算值进行输出的处理。此外，在上述实施方式中的节气门14的开口度指令值TA＊的运算时，进行上述处理A来作为缓变化处理，但也可以进行上述处理B来作为缓变化处理。

在图8中表示进行处理B来作为缓变化处理而运算开口度指令值TA＊的情况下的第1操作处理中的节气门14的操作涉及的CPU72的处理步骤。如图8所示，在该情况下的第1操作处理中的节气门14的操作时，首先，运算将加速器操作量PA和车速V作为了输入的映射数据DS1的输出来作为要求转矩Tor＊的值。接着，运算将要求转矩Tor＊作为了输入的映射数据DS2的输出来作为开口度指令值TA＊的值。进一步，运算对开口度指令值TA＊实施缓变化处理而得到的值来作为开口度缓变化指令值TAsm＊。并且，通过信号输出处理，对节气门开口度TA向开口度缓变化指令值TAsm＊的变更进行指示的指令信号MS1被输出到节气门14。

此外，在第2操作处理的执行期间中持续进行基于第1运算处理的运算的操作量不需要限于通过缓变化处理、反馈修正处理运算的操作量。另外，也可以将在第1操作处理的执行期间中通过第1运算处理运算的全部操作量作为在第2操作处理的执行期间中也持续进行运算的第1运算处理的操作量。

·控制装置70可以由包括(1)按照计算机程序(软件)进行动作的1个以上的处理器、(2)执行各种处理中的至少一部分处理的面向特定用途的集成电路(ASIC)等的1个以上的专用硬件电路、或者(3)它们的组合的处理电路构成。处理器包括CPU和RAM及ROM等存储器，存储器保存构成为使CPU执行处理的程序代码或者指令。存储器即计算机可读介质包括通用或者专用的能够由计算机进行访问的所有能够利用的介质。

Claims

1.一种内燃机的控制装置，构成为通过对搭载于车辆的内燃机的操作部进行操作来使该内燃机的控制量进行变化，具备：

存储装置，其构成为预先存储关系规定数据和已适配数据，所述关系规定数据是对状态变量与所述操作部的操作量的关系进行规定的数据，在所述车辆的行驶期间被进行更新，所述状态变量是表示包括所述内燃机的状态的所述车辆的状态的变量，所述已适配数据是在基于所述状态变量的检测值的所述操作量的运算中使用的数据，在所述车辆的行驶期间不被进行更新；和

执行装置，其构成为执行所述操作部的操作，

所述执行装置构成为执行：

第1运算处理，使用所述已适配数据，基于所述状态变量的检测值来运算所述操作量；

第2运算处理，运算由所述关系规定数据和所述状态变量确定的值来作为所述操作量；

强化学习处理，基于根据由所述第2运算处理运算出的所述操作量操作所述操作部时的所述状态变量的检测值来算出奖励，并且，基于所述状态变量、所述操作量以及所述奖励来对所述关系规定数据进行更新以使所述奖励的期待收益增加；

第1操作处理，执行所述第1运算处理，并且，根据基于该第1运算处理的所述操作量的运算值来对所述操作部进行操作；

第2操作处理，执行所述第1运算处理和所述第2运算处理这两方，并且，根据基于所述第2运算处理的所述操作量的运算值来对所述操作部进行操作；以及

切换处理，根据所述车辆的状态将操作所述操作部的处理在所述第1操作处理与所述第2操作处理之间进行切换。

2.根据权利要求1所述的内燃机的控制装置，

在基于所述第2操作处理的所述操作部的操作时，所述第1运算处理限定于基于所述第1操作处理的所述操作部的操作时所运算的多个操作量中的一部分操作量来进行运算。

3.根据权利要求2所述的内燃机的控制装置，

在将所述一部分操作量所包含的操作量之一作为了第1操作量时，所述第1运算处理包括反馈修正处理，所述反馈修正处理是在所述第1操作量的运算时所执行的处理，所述反馈修正处理根据所述控制量的目标值与检测值的偏差来对所述第1操作量进行修正。

4.根据权利要求2所述的内燃机的控制装置，

在将所述一部分操作量所包含的操作量之一作为了第2操作量时，

所述已适配数据包括对将所述状态变量作为输入、且将所述第2操作量作为输出的映射进行规定的数据，

所述第1运算处理包括缓变化处理，所述缓变化处理是在所述第2操作量的运算时所执行的处理，所述缓变化处理是将所述状态变量的检测值作为输入、且输出相对于该检测值具有延迟地进行跟踪的值来作为所述映射的输入值的处理、和输出相对于所述映射的输出值具有延迟地进行跟踪的值来作为所述第2操作量的运算值的处理这两个处理中的某一方的处理。

5.根据权利要求3所述的内燃机的控制装置，

6.根据权利要求1～5中任一项所述的内燃机的控制装置，

所述车辆是进行手动加速行驶和自动加速行驶的车辆，所述手动加速行驶根据驾驶员的加速踏板操作进行车辆的加减速，所述自动加速行驶不基于所述加速踏板操作而自动地进行所述车辆的加减速，

所述切换处理是如下处理：根据所述车辆是正在进行所述手动加速行驶还是正在进行所述自动加速行驶，在所述第1操作处理与所述第2操作处理之间切换对操作部进行操作的处理。

7.一种内燃机的控制方法，通过对搭载于车辆的内燃机的操作部进行操作来使该内燃机的控制量进行变化，所述控制方法包括：

预先存储关系规定数据，所述关系规定数据是对状态变量与所述操作部的操作量的关系进行规定的数据，在所述车辆的行驶期间被进行更新，所述状态变量是表示包括所述内燃机的状态的所述车辆的状态的变量；

预先存储已适配数据，所述已适配数据是在基于所述状态变量的检测值的所述操作量的运算中所使用的数据，在所述车辆的行驶期间不被进行更新；以及

执行所述操作部的操作，

执行所述操作部的操作包括执行：