CN113022582B

CN113022582B - 控制装置、控制装置的控制方法、记录介质、信息处理服务器、信息处理方法以及控制系统

Info

Publication number: CN113022582B
Application number: CN202011398791.XA
Authority: CN
Inventors: 藤元岳洋
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2019-12-24
Filing date: 2020-12-02
Publication date: 2024-02-13
Anticipated expiration: 2040-12-02
Also published as: JP7357537B2; CN113022582A; US20210192344A1; US11934951B2; JP2021103356A

Abstract

本发明提供一种在车辆的控制中能够在车辆的生命周期中持续地兼顾强化学习中的探索和利用的控制装置。其使用强化学习对规定系统进行规定的控制，控制装置具有：检测单元，其对规定系统的生命周期中的事件进行检测；设定单元，其根据检测到事件这一情况，将根据检测到的事件而确定的探索参数设定为对强化学习中的探索的比例进行调整的值；以及处理单元，其按照所设定的探索参数来执行使用了强化学习的规定的控制，在检测到第一事件的情况下，设定单元以如下方式设定探索参数：使在作为第一事件之后的第一期间设定的探索的比例小于在检测到第一事件之前的第二期间设定的探索的比例。

Description

控制装置、控制装置的控制方法、记录介质、信息处理服务器、信息处理方法以及控制系统

技术领域

本发明涉及控制装置、控制装置的控制方法、记录介质、信息处理服务器、信息处理方法以及控制系统。

背景技术

近年来，已知有在用于实现车辆的自主行驶的行动控制中使用强化学习的技术(专利文献1)。在专利文献1中，公开了如下内容：在学习强化学习中的策略(称为行动选择规则。也被称为策略policy)的过程中，以概率ε随机地选择行动，并以概率1-ε按照策略来选择行动(也被称为ε-greedy法)。即，为了通过学习来获得更适当的策略，需要兼顾用于得到更多样的行动策略的探索(exploration)和学习到的策略的利用(exploitation)。

现有技术文献

专利文献

专利文献1：日本特愿2019-087096号公报

发明内容

发明所要解决的问题

然而，当通过强化学习来进行行动控制的商品化的车辆在市场上行驶的情况下，设想的是不进行行动控制中的探索，以输出在学习完毕的状态下进行了测试等的一意性的控制信号。另一方面，为了实现自主行驶这样的高维的行动控制，需要进行用于从广大的行动空间探索最佳的行动的学习，有时希望在车辆的市场导入后也收集并利用为此的学习数据、尤其是在实际环境下得到的各种数据。

本发明是鉴于上述问题而完成的，其目的在于提供一种在车辆的控制中能够在车辆的生命周期中持续地兼顾强化学习中的探索和利用的技术。

用于解决问题的手段

根据本发明，提供一种控制装置，其使用强化学习对规定系统进行规定的控制，其特征在于，

所述控制装置具有：

检测单元，其对所述规定系统的生命周期中的事件进行检测；

设定单元，其根据检测到所述事件这一情况，将根据检测到的所述事件而确定的探索参数设定为对所述强化学习中的探索的比例进行调整的值；以及

处理单元，其按照所设定的所述探索参数来执行使用了所述强化学习的所述规定的控制，

在检测到第一事件的情况下，所述设定单元以如下方式设定所述探索参数：使在作为所述第一事件之后的第一期间设定的探索的比例小于在检测到所述第一事件之前的第二期间设定的探索的比例。

另外，根据本发明，提供一种控制装置的控制方法，该控制装置使用强化学习对规定系统进行规定的控制，其特征在于，

所述控制装置的控制方法具有：

检测步骤，在该检测步骤中，对所述规定系统的生命周期中的事件进行检测；

设定步骤，在该设定步骤中，根据检测到所述事件这一情况，将根据检测到的所述事件而确定的探索参数设定为对所述强化学习中的探索的比例进行调整的值；以及

处理步骤，在该处理步骤中，按照所设定的所述探索参数来执行使用了所述强化学习的所述规定的控制，

在所述设定步骤中，在检测到第一事件的情况下，以如下方式设定所述探索参数：使在作为所述第一事件之后的第一期间设定的探索的比例小于在检测到所述第一事件之前的第二期间设定的探索的比例。

进一步地，根据本发明，提供一种记录介质，其存储执行控制装置的控制方法的命令，该控制装置使用强化学习对规定系统进行规定的控制，其特征在于，

在由所述控制装置的处理器执行所述命令时，使所述处理器执行：

另外，根据本发明，提供一种信息处理服务器，其使用强化学习对规定系统进行规定的控制，其特征在于，

所述信息处理服务器具有：

设定单元，其根据检测到所述事件这一情况，将根据检测到的所述事件而确定的探索参数设定为对所述强化学习中的探索的比例进行调整的值；

处理单元，其按照所设定的所述探索参数来执行使用了所述强化学习的用于所述规定的控制的处理；以及

发送单元，其将所述处理单元的处理结果发送至所述规定系统，

进一步地，根据本发明，提供一种信息处理方法，其是由信息处理服务器执行的、使用强化学习对规定系统进行规定的控制的信息处理方法，其特征在于，

所述信息处理方法具有：

设定步骤，在该设定步骤中，根据检测到所述事件这一情况，将根据检测到的所述事件而确定的探索参数设定为对所述强化学习中的探索的比例进行调整的值；

处理步骤，在该处理步骤中，按照所设定的所述探索参数来执行使用了所述强化学习的用于所述规定的控制的处理；以及

发送步骤，在该发送步骤中，将处理步骤的处理结果发送至所述规定系统，

另外，根据本发明，提供一种控制系统，其包括使用强化学习对规定系统进行规定的控制的控制装置以及信息处理服务器，其特征在于，

所述控制装置具有：

第一发送单元，其根据检测到所述事件这一情况，将检测到的所述事件发送至所述信息处理服务器；

设定单元，其将从所述信息处理服务器接收到的、根据所述事件而确定的探索参数设定为对所述强化学习中的探索的比例进行调整的值；以及

在检测到第一事件的情况下，所述设定单元以如下方式设定所述探索参数：使在作为所述第一事件之后的第一期间设定的探索的比例小于在检测到所述第一事件之前的第二期间设定的探索的比例，

所述信息处理服务器具有：

确定单元，其根据所述事件来确定所述探索参数；以及

第二发送单元，其将所确定的所述探索参数发送至所述规定系统。

发明效果

根据本发明，在车辆的控制中，能够在车辆的生命周期中持续地兼顾强化学习中的探索和利用。

附图说明

图1是表示本发明的实施方式所涉及的车辆控制系统的概要的图。

图2是表示本实施方式所涉及的车辆的功能构成例的模块图。

图3是对作为使用了本实施方式所涉及的强化学习的控制的一个例子的减振器控制的动作概要进行说明的图。

图4是作为本实施方式所涉及的模型处理部中的强化学习的一个例子，对应用演员-评论家(actor-critic)方法的情况下的构成进行说明的图。

图5是在本实施方式中能够利用的传感器以及由该传感器测量的传感器数据的例子的图。

图6是表示本实施方式所涉及的探索参数的变化的一个例子的图。

图7是本实施方式所涉及的车辆中的减振器控制处理的一系列的动作的流程图。

图8是本实施方式所涉及的车辆中的探索参数设定处理的一系列的动作的流程图。

图9是表示作为本实施方式所涉及的信息处理服务器的一个例子的数据收集服务器的功能构成例的图。

图10是表示本实施方式所涉及的数据收集服务器中的探索参数发送处理的一系列的动作的流程图。

图11是用于对本实施方式所涉及的事件与探索参数的值的对应关系进行说明的图。

具体实施方式

以下，参照附图对实施方式进行详细说明。此外，以下的实施方式并非对权利要求书所涉及的发明进行限定，另外，在实施方式中说明的特征的组合未必全部都是发明所必须的。也可以对实施方式中说明的多个特征中的两个以上的特征任意地进行组合。另外，对相同或者同样的构成标注相同的附图标记，并省略重复的说明。

<车辆控制系统的概要>

参照图1，对本实施方式所涉及的车辆控制系统10的概要进行说明。车辆控制系统10包括作为规定系统的一个例子的车辆100以及作为信息处理服务器的一个例子的数据收集服务器110。在本实施方式中，以车辆100使用强化学习对作为车辆的构成要素的减振器进行控制的情况为例进行说明。但是，也能够应用于车辆使用强化学习对减振器控制以外的其他构成要素进行控制(例如行驶时的转向、油门控制)的情况。另外，在以下说明的实施方式中，以车辆所具备的控制部进行使用了强化学习的减振器控制的情况为例进行说明。但是，也可以由搭载于车辆内的信息处理装置进行由控制部进行的处理。即，本实施方式也可以通过由信息处理装置从车辆获取传感器信息等并将使用了强化学习的减振器控制用的控制信号向车辆输出的构成来实现。此外，在以下的说明中，有时将车辆所具备的控制部或上述信息处理装置称为控制装置。

数据收集服务器110是用于获取并积蓄为了学习使用了强化学习的学习模型的学习数据的服务器。数据收集服务器110从各个车辆100获取由在实际环境中进行控制的多个车辆100收集的学习数据。学习数据的详细内容在后面进行叙述，包括由车辆100的传感器获取的反馈数据。学习数据可以包括报酬、行动等其他信息(即在强化学习中使用的输入输出的信息)。数据收集服务器110将从车辆100获取到的学习数据积蓄在数据库(DB)111中。

本实施方式的数据收集服务器110从在实际环境中进行控制的车辆100获取事件信息，并根据获取到的事件信息进行车辆100的参数控制。事件信息是表示在车辆100的生命周期中发生的事件的信息。事件例如包括针对车辆的手续的完成(车辆制造完成、车辆登记的完成)、车辆达到特定的使用状态(从制造完成起经过规定天数、从制造完成起行驶了规定行驶距离)、或者对车辆进行控制的构成要素的更新(实施学习模型的版本的规定次数的更新)等。

车辆100在使用了强化学习的控制中决定策略时，例如以规定的概率ε选择(即探索)随机的行动，并以1-ε的概率按照策略的输出来选择(即利用)行动。对于这样的车辆100，数据收集服务器110根据与各个车辆100的生命周期对应的事件的发生，对每个车辆的参数(在此为概率ε)进行控制。车辆100根据由数据收集服务器110指定的参数(概率ε)，兼顾强化学习中的探索与利用的平衡。由此，数据收集服务器110能够从实际环境中的车辆100收集具有某种程度的偏差的多样的数据。进而，能够使得使用了收集到的学习数据的模型的性能更加高性能化。此外，如后所述，在通过强化学习算法的探索而选择无法在安全方面容许的输出的情况下，将输出值过滤掉，以使得车辆不被该输出控制。

<车辆的构成>

接着，参照图2，对本实施方式所涉及的车辆100的功能构成例进行说明。此外，参照以下的附图来说明的各功能模块可以合并或分离，另外，所说明的功能也可以通过其他的模块来实现。另外，作为硬件进行说明的功能也可以由软件来实现，反之亦然。

传感器部101是车辆100所具备的各种传感器，输出与车辆100的举动相关的传感器数据。图5表示传感器部101中的能够用于本实施方式的减振器控制处理的各种传感器和测量内容的一个例子。这些传感器例如包括用于测量车辆100的车速的车速传感器、用于测量车辆的车身加速度的加速度传感器、测量减振器的行程举动(速度、位移)的悬架位移传感器。进一步地，还包括测量转向输入的转向角传感器、获取自身位置的GPS等。此外，在以后的说明中，将在减振器控制处理中使用的、与车辆100的举动相关的这些传感器数据特别称为反馈数据。从传感器部101输出的与车辆100的举动相关的反馈数据被输入至控制部200、减振器控制部106中。

另外，传感器部101可以包括输出对车辆的前方(或者，进一步的后方方向、周围)进行拍摄而得到的拍摄图像的拍摄用摄像机、输出对车辆的前方(或者，进一步的后方方向、周围)的距离进行测量而得到的距离图像的Lidar(Light Detection and Ranging)。例如，控制部200也可以将拍摄图像、距离图像等空间上的信息作为反馈数据来进行使用了强化学习的减振器控制或者车辆100的行动控制。

通信部102例如是包含通信用电路等的通信设备，例如经由作为LTE、LTE-Advanced等或者所谓5G而标准化的移动体通信而与外部的服务器、周围的交通系统等进行通信。可以从外部服务器接收地图数据的一部分或全部，或从其他交通系统接收交通信息等。另外，通信部102将从传感器部101获取到的各种数据(例如反馈数据)、事件信息发送至数据收集服务器110。而且，通信部102从数据收集服务器110接收与参数控制相关的信息(例如表示用于进行探索的概率ε的信息。以下，称为探索参数)。

操作部103除了安装在车辆100内的按钮、触摸面板等操作构件以外，还包括转向、制动踏板等接受用于驾驶车辆100的输入的构件。电源部104例如包括由锂离子电池等构成的电池，向车辆100内的各部供给电力。动力部105例如包括产生用于使车辆行驶的动力的发动机、马达。

减振器107用于车辆100的悬架，例如是能够控制作为减振器的特性的衰减力的主动减振器。例如，减振器107的控制通过控制在减振器107的内部的线圈中流动的电流量来调节使内部的阀打开的压力，从而对减振器107的衰减力进行控制。减振器107由分别独立的四个减振器107构成，被分别独立地进行控制。此外，在车辆100使用强化学习来进行(作为与减振器控制不同的控制的)车辆的行动控制等的情况下，减振器107也可以是通常的减振器。

减振器控制部106是用于对减振器107的特性进行控制的例如软件模块，减振器控制部106基于从控制部200输出的控制变量对(独立的四个减振器107各自的)减振器特性进行控制。此外，在本实施方式中，为了确保减振器控制所要求的高速响应性，由减振器控制部106对减振器107进行控制，但减振器控制部106并非是必须的，也可以由控制部200直接对减振器107进行控制。

存储部108包括半导体存储器等非易失性的大容量的存储设备。为了将从传感器部101输出的反馈数据或者由控制部200筛选出的反馈数据发送至数据收集服务器110，而临时存储上述反馈数据。

控制部200例如包括CPU210、RAM211、ROM212，对车辆100的各部的动作进行控制。另外，控制部200从传感器部101获取反馈数据，并执行减振器控制处理，或者根据从数据收集服务器110接收到的探索参数，对强化学习中的探索和利用的平衡进行控制。控制部200通过由CPU210将存储在ROM212中的计算机程序在RAM211中加载并执行，从而发挥数据输入部213、模型处理部214、报酬决定部215、探索参数设定部216的功能。

CPU210包括一个以上的处理器。RAM211例如包括DRAM等，作为CPU210的工作存储器而发挥功能。ROM212由非易失性的存储介质构成，存储由CPU210执行的计算机程序、使控制部200进行动作时的设定值等。此外，在以下的实施方式中，以由CPU210执行模型处理部214的处理的情况为例进行说明，但模型处理部214的处理也可以由未图示的一个以上的其他处理器(例如GPU)来执行。

数据输入部213获取存储在存储部108的反馈数据，并进行数据的预处理。对作为反馈数据而输入的车辆的运动状态、驾驶输入的特征进行各种加工处理，以便易于对机器学习算法进行处理。在加工处理的一个例子中，包括加工成规定的期间内的反馈数据的最大值、最小值等的处理。通过预先对反馈数据进行加工，与利用机器学习算法直接处理原始的反馈数据的情况相比，能够提高处理效率、学习效率。此外，在本实施方式的例子中，以将由数据输入部213加工后的反馈数据作为学习数据发送至数据收集服务器110的情况为例进行说明。但是，也可以将未经由数据输入部213进行加工的状态的反馈数据作为学习数据用于强化学习，或者发送至数据收集服务器110。

模型处理部214例如进行深度强化学习等机器学习算法的运算，并将所得到的输出输出至减振器控制部106。模型处理部214使用来自数据输入部213的反馈数据和来自报酬决定部215的报酬的数据，执行强化学习算法，并输出向减振器控制部106提供的控制变量。模型处理部214通过执行强化学习算法来优化(即学习)内部的参数，将由内部的参数确定的运算处理应用于反馈数据，由此输出与车辆100的举动相应的最佳的控制变量。另外，模型处理部214包括从与策略相关的神经网络(演员)输出的多个行动中按照探索参数来选择行动的处理。

报酬决定部215基于反馈数据，来决定在机器学习算法(强化学习算法)中使用的报酬或者惩罚，并输出至模型处理部214。探索参数设定部216将从数据收集服务器110获取到的探索参数设定在模型处理部214中。

事件检测部217基于由车辆100的传感器部101测量到的信息、在模型处理部214中进行动作的学习模型的版本信息等，来检测在车辆100的生命周期中发生的事件，将检测到的事件作为事件信息发送至数据收集服务器110。事件信息是表示在车辆100的生命周期中发生的事件的信息。如上所述，事件例如包括针对车辆的手续的完成(车辆制造完成、车辆登记的完成)、车辆达到特定的使用状态(从制造完成起经过规定天数、从制造完成起行驶了规定行驶距离)、或者对车辆进行控制的构成要素的更新(实施学习模型的版本的规定次数的更新)等。

<使用了强化学习的减振器控制处理的概要>

接着，参照图3，对使用了强化学习的减振器控制处理的概要进行说明。

本实施方式的减振器控制处理例如包括使用了模型处理部214中的深度强化学习算法的运算处理和减振器控制部106中的运算处理。在这样的构成中，减振器控制部106能够通过预先决定的规则库的运算处理，利用低维控制输出以几百赫兹的高速的动作频率对减振器进行控制，另一方面，模型处理部214能够以不高于减振器控制部的动作频率执行高维的控制。当然，减振器控制的构成并不限定于该构成，也可以不设置减振器控制部106，而是由模型处理部214直接进行减振器107的控制。

例如，模型处理部214在某时刻t接受来自数据输入部213的反馈数据并执行强化学习算法，并将得到的控制变量输出至减振器控制部106。在强化学习中，该反馈数据相当于环境的状态(s_t)，控制变量相当于针对环境的行动(a_t)。

减振器控制部106在接受到来自模型处理部214的控制变量时，将在减振器控制部106的内部使用的控制变量替换为从模型处理部214获取到的新的控制变量。控制变量例如包含与反馈数据相应的增益参数等、用于供减振器控制部106决定减振器的特性的参数。另外，控制变量也是用于供减振器控制部106基于公知的天钩理论来决定减振器107的衰减力的参数。例如，以在车辆100的传感器部101中测量的车辆的车身加速度与基于天钩理论的加速度匹配的方式控制减振器107的衰减力。

减振器控制部106基于来自模型处理部214的新的控制变量，进行针对反馈数据的减振器特性的控制。此时，减振器控制部106计算出用于对减振器107的特性进行控制的控制量。例如，减振器107的特性为衰减力，用于对减振器107的特性进行控制的控制量是对该衰减力进行控制的电流量。减振器控制部106在时刻成为t+1之前，反复进行基于新的控制变量的针对反馈数据的减振器控制。

传感器部101获取时刻t+1下的反馈数据，数据输入部213对该反馈数据进行加工，并将加工后的反馈数据输出至模型处理部214。在强化学习中，该加工后的反馈数据相当于环境中的状态(s_t+1)。报酬决定部215基于该反馈数据，来决定强化学习中的报酬(r_t+1)(或者惩罚)并提供给模型处理部214。在本实施方式中，报酬是根据规定的反馈数据的组合而得到的、与车辆的举动相关的报酬值。

模型处理部214在接受到报酬(r_t+1)时，对后述的策略以及状态价值函数进行更新，并输出针对时刻t+1下的反馈数据的新的控制变量(行动(a_t+1))。

<模型处理部的构成>

进一步地，参照图4，对模型处理部214的构成例和减振器控制处理中的模型处理部214的动作例进行说明。图4示意性地示出了在使用演员-评论家方法的情况下的模型处理部214的内部构成例和模型处理部214的神经网络(NN)的网络构成例。

模型处理部214包括演员401和评论家402。演员401是基于策略π(s，a)来选择行动(a)的机构。作为一个例子，若将在状态s下选择行动a的概率设为p(s，a)，则策略由p(s，a)和例如使用了softmax函数等的规定的函数来进行定义。评论家402是对当前演员所利用的策略π(s，a)进行评价的机构，具有表示该评价的状态价值函数V(s)。

以在图3中说明的从时刻t到时刻t+1的动作为例进行说明，在某时刻t，演员401接受反馈数据，基于策略π(s，a)输出控制变量(即行动(a_t))。

通过减振器控制部106，在使用针对时刻t的控制变量进行了减振器控制之后，当得到时刻t+1下的反馈数据(即状态(s_t+1)时，从报酬决定部215将基于该反馈数据的报酬(r_t+1)输入至评论家402。

评论家402计算出用于改善演员的策略的策略改善，并将其输入至演员401。策略改善可以通过公知的规定的计算方法而求出，例如，能够将使用报酬和反馈数据而得到的公知的TD误差δ_t＝r_t+1+γV(s_t+1)-V(s_t)(γ为强化学习中的折扣报酬)用作策略改善。

演员401基于策略改善对策略π(s，a)进行更新。策略的更新，例如可以进行将p(s_t，a_t)用p(s_t，a_t)+βδ_t(β为步长参数)进行替换这样的更新。即，演员401使用基于报酬的策略改善而对策略进行更新。评论家402例如用V(s)+αδ_t(α为步长参数)对状态价值函数V(s)进行替换来进行更新。

图4的右图示意性地示出了在深度神经网络(也简称为NN)中实现模型处理部214所使用的学习模型的情况下的网络构成例。在该例子中，由演员和评论家这两个神经网络构成。输入层410例如由1450个神经元构成，输入对应的反馈数据。

从输入层410输入的信号分别在演员的隐藏层411、评论家的隐藏层412中沿正向传播，并且从各自的输出层413和输出层414获得输出值。来自于演员的NN的输出为策略(可采取的行动)，来自于评论家的NN的输出为状态值。作为一个例子，演员的隐藏层411例如由五层的网络结构构成，评论家的隐藏层412例如由三层的网络结构构成。

演员的输出层413例如由2两个神经元构成，评论家的输出层414例如由一个神经元构成。例如，输出层413的神经元的列与可采取的行动的列表相对应，各神经元可以表示应当采取行动的评分或者采取行动的概率。当在输出层413中输出各神经元的值时，从上述多个行动中，根据探索参数选择行动。例如在探索参数为概率ε的情况下，以概率ε随机地选择行动，并以概率1-ε选择出表示最高评分的行动。此外，网络的神经元数量、层的数量、网络构成能够适当地进行变更，也可以使用其他构成。

为了对各个神经网络进行优化，需要变更神经网络的权重参数。例如使用预先规定的损失函数通过误差反向传播来进行神经网络的权重参数的变更。在本实施方式中，由于存在演员和评论家这两个网络，因此预先分别使用演员的损失函数L_actor和评论家的损失函数L_critic。例如通过对各损失函数使用规定的梯度下降优化方法(例如RMSprop SGD)来变更各个网络的权重参数。

控制部200将反馈数据(状态s_t)作为学习数据发送至数据收集服务器110。或者，控制部200也可以将与该反馈数据(状态s_t)对应的演员的输出(行动a_t)、报酬r_t+1、以及行动a_t的结果产生的反馈数据(状态s_t+1)作为一组学习数据发送给数据收集服务器110。在该情况下，在以下的说明中，关于仅将反馈数据作为学习数据来发送的内容的说明，也可以理解为意思是将该一组信息作为学习数据来发送。

<与事件相应的探索参数设定处理的概要>

接着，参照图6，对根据在车辆100的生命周期中发生的事件而对模型处理部214设定的探索参数的变化进行说明。

图6表示探索参数的值(纵轴)与时间(横轴)的关系，示意性地示出了每当发生事件时，探索参数的值发生变化的情形。探索参数与强化学习算法以概率ε随机地选择行动并以概率1-ε按照策略来选择行动的情况下的概率ε的值对应。另外，时间表示与车辆的生命周期相关的时间。

将事件1的发生例如设为车辆的制造完成时。在该情况下，设想的是，从车辆的制造完成时之前(例如开发时)开始定义车辆的生命周期，在该期间内，模型处理部214的学习模型进行强化学习。在该情况下，关于车辆的制造完成时之前的时间，除了车辆实际行驶的情况以外，例如也可以是在服务器上通过模拟等进行强化学习这样的情况。当然，也可以将时间的原点设为车辆的制造完成时，作为之后的事件而发生事件1、事件2……。

在事件1发生之前，探索参数的值被设定为值601，根据发生了事件1这一情况，被设定为值602。在事件1是车辆的制造完成的情况下，在发生该事件之后设定的探索参数的值602比在事件发生前设定的探索参数的值601低。而且，设定事件发生前的探索参数和事件发生后的探索参数为不连续的探索参数。这意味着，可以认为在事件1发生之前进行学习而提高了学习模型的精度，因此以事件发生为契机，使强化学习的探索性的要素降低一级。但是，在制造完成后也继续在学习数据的收集中保留探索性的要素，收集包含有偏差的学习数据，因此探索参数不设定为0。

同样地，也可以在依次发生事件2和事件3时，每次都降低探索参数的值，最终在t3以后将探索参数的值设定为0。如上所述，事件2、事件3例如是车辆100的行驶从制造完成起达到规定行驶距离的情况、学习模型的版本更新了规定次数的情况。在图6所示的例子中，事件3相当于判定为学习模型的精度已足够高的事件。

此外，在上述的说明中，以探索参数为值601～603那样取恒定的值的情况为例进行了说明。但是，如曲线604～606所示，两个事件之间的探索参数也可以作为与时刻经过、收集到的学习数据的量、或者行驶距离等的值相应的函数的值而发生变化。在该情况下，曲线604～606所示的探索参数的值以在事件发生时不连续的方式发生变化。这样，例如，在事件1与事件2之间空出较长时间(例如以年为单位)的情况下，能够使探索参数的值根据车辆的状态而逐渐发生变化。

探索参数例如可以通过规定形式的表格与事件建立关联。图11是用于对事件与探索参数的值的对应关系进行说明的图。在该例子中，各个探索参数的值(探索参数1102的列)与事件1至事件3(事件1101的列)建立关联。将车辆的制造完成时定义为第一个事件，并将探索参数的值设定为低于在此之前的值。而且，在该例子中，当车辆行驶了规定的行驶距离的阈值以上时，阶段性地降低探索参数，例如，最终设定为零。

数据收集服务器110预先存储有该表格，当从车辆100接收到事件的信息时，参照该表格获取对应的探索参数的值，并发送至车辆100。车辆100将从数据收集服务器110接收到的探索参数设定在模型处理部214中，并执行强化学习算法。

<车辆中的减振器控制处理的一系列的动作>

接着，参照图7对车辆中的减振器控制处理的一系列的动作进行说明。此外，本处理在图3的说明中从得到时刻t的反馈数据的时间点开始。此外，模型处理部214的动作例如以5Hz的动作频率来进行。另外，在本处理中，例如，将初始的探索参数设定在模型处理部214中。进一步地，基于模型处理部214以及演员401等控制部200内的构成的处理是通过由CPU210将存储在ROM212中的程序在RAM211中加载并执行来实现的。

在S701中，演员401从数据输入部213接受反馈数据，并基于策略π(s，a)而输出行动(a_t)。此时，模型处理部214根据所设定的探索参数，从演员401所输出的行动(相当于输出层413)中选择出行动。然后，输出与所选择的行动对应的控制变量。

在S702中，减振器控制部106在接受到来自模型处理部214的控制变量时，将在减振器控制部106的内部使用的控制变量替换为从模型处理部214获取到的新的控制变量。然后，减振器控制部106通过将替换后的控制变量应用于反馈数据，来控制减振器107的特性。此外，在图7所示的流程图中，为了简便，将S702和S703的步骤记载为针对时刻t的一次的控制。但是，减振器控制部106对于能够以例如1KHz的速度获取到的反馈数据，能够以例如100Hz的动作频率对减振器特性进行控制，并以该动作频率对控制量(用于控制减振器107的衰减力的电流量)进行控制。在该情况下，实际上，在时刻t+1之前，可以重复S702和S703的处理。在S703中，减振器控制部106将计算出的控制量(例如电流量)供给至减振器而对减振器107的特性进行控制。

在S704中，传感器部101(例如以1KHz的动作频率)获取反馈数据，直到时刻t+1为止。

在S705中，数据输入部213对反馈数据应用上述的预处理。在S706中，报酬决定部215基于时刻t+1下的反馈数据，来决定上述的报酬(r_t+1)，并输出至评论家402。在S707中，评论家402计算出用于改善演员401的策略的、上述策略改善(例如TD误差)，并输入至演员401。

在S708中，演员401基于S707中的策略改善对策略π(s，a)进行更新。演员401例如以用p(s_t，a_t)+βδ_t对p(s_t，a_t)进行替换的方式来更新策略。在S709中，评论家402例如用V(s)+αδ_t(α为步长参数)对状态价值函数V(s)进行替换来进行更新。若评论家402对状态价值函数进行了更新，则之后结束本处理。在本实施方式中，以从时刻t到时刻t+1的动作为例进行了说明，但也可以反复进行图7所示的一系列的动作，并在满足规定的条件的情况下结束一系列的处理。

<车辆中的探索参数设定处理的一系列的动作>

接着，参照图8对车辆中的探索参数设定处理的一系列的动作进行说明。此外，本处理在图3的说明中从得到时刻t的反馈数据的时间点开始，与参照图7说明的减振器控制处理独立地并行执行。本处理通过由CPU210将存储在ROM212中的程序在RAM211中加载并执行来实现。

在S801中，数据输入部213基于来自传感器部101的反馈数据，来获取上述加工后的反馈数据。该反馈数据作为实际环境中的学习数据而被收集，并根据需要临时存储在存储部108中。在S802中，控制部200将临时存储在存储部108中的反馈数据作为学习数据依次发送至数据收集服务器110。

在S803中，事件检测部217判定在车辆100中是否发生了规定的事件。例如，事件检测部217在车辆100中的规定的功能被激活的情况下、或在ROM212中存储有表示制造完成的、表示规定的版本的信息的情况下，检测出车辆的制造完成。或者，也可以在基于用户操作输入了与制造完成或者车辆登记相关的信息的情况下，检测出车辆的制造完成、车辆登记。

另外，事件检测部217参照存储在ROM212或存储部108中的行驶距离的信息，在该行驶距离超过规定的行驶距离的情况下，检测出对应的事件。此外，也可以对发送的学习数据的数据量进行统计，在超过规定的数据量的情况下，检测出对应的事件。或者，在从规定的时间点(例如车辆100的初始的车辆模型的销售开始时、车辆100自身的制造完成时等)起经过了经过时间的情况下，检测出对应的事件。在事件检测部217检测到事件的情况下，控制部200使处理进入S804，在判定为未检测到事件的情况下，控制部200使处理返回至S801。

在S804中，控制部200将表示检测到的事件的事件信息发送至数据收集服务器110。事件信息例如是预先分配给事件的事件识别符。

在S805中，探索参数设定部216获取从数据收集服务器110发送的探索参数，并设定在模型处理部214中。获取的探索参数例如包括参照图11说明的探索参数的值(探索参数1102)。

在S806中，模型处理部214执行神经网络的运算，并使用新的探索参数来选择行动。然后，输出与所选择的行动对应的控制变量。此时，模型处理部214判定基于随机选择的行动的控制变量在安全方面是否能够容许，在判定为无法容许的情况下，能够将该控制变量过滤掉。在安全方面是否能够容许的判定，使用预先通过实验等确定的判定条件即可。这样，即使在实际环境中通过随机的行动的选择而选择出异常的输出的情况下，也能够确保安全的控制。

在S807中，控制部200判定是否结束车辆控制，在判定为结束的情况下，之后结束本一系列的处理。否则，使处理返回至S801，并且反复进行处理。

这样，在本实施方式中，在使用强化学习来进行控制的车辆中，在检测到车辆的生命周期中的事件时，将根据该事件而确定的探索参数设定为对强化学习中的探索的比例进行调整的值。然后，根据所设定的探索参数来执行使用了强化学习的处理。此时，在检测到第一事件的情况下，以如下方式设定探索参数：使在作为第一事件之后的第一期间设定的探索的比例小于在检测到第一事件之前的第二期间设定的探索的比例。由此，在车辆的控制中，能够在车辆的生命周期中持续地兼顾强化学习中的探索和利用。

<数据收集服务器的构成>

接着，参照图9对作为信息处理服务器的一个例子的数据收集服务器的功能构成例进行说明。此外，参照以下的附图来说明的各功能模块可以合并或分离，另外，所说明的功能也可以通过其他的模块来实现。另外，作为硬件进行说明的功能也可以由软件来实现，反之亦然。

控制部900例如包括CPU910、RAM911、ROM912，控制部900对数据收集服务器110的各部的动作进行控制。控制部900通过由CPU910将存储在ROM912中的计算机程序在RAM911中加载并执行，从而发挥构成控制部900的各部的功能。

事件信息获取部913(经由通信部901)获取从车辆100发送来的事件信息。探索参数控制部914确定与由事件信息获取部913获取到的事件对应的探索参数。探索参数控制部914将所确定的探索参数发送给发送了事件信息的车辆。

模型提供部915在对车辆100的模型处理部214中设定的强化学习算法的学习模型进行版本升级时，向车辆100提供模型信息。模型信息包含该学习模型的版本、神经网络的权重参数等。模型提供部915能够使用从车辆100收集到的学习数据在服务器上进行学习模型的优化，从而进行学习模型的版本升级。

通信部901例如是包含通信用电路等的通信设备，例如通过因特网等网络与车辆进行通信。通信部901接收从车辆发送来的反馈数据(学习数据)的信息，并将探索参数的信息(或者学习模型的信息)发送至车辆100。电源部902向数据收集服务器110内的各部供给电力。

存储部903是硬盘、半导体存储器等非易失性存储器。存储部903包括存储从车辆发送来的上述学习数据的信息的DB111。

<数据收集服务器中的探索参数发送处理的一系列的动作>

接着，参照图10，对数据收集服务器110中的探索参数发送处理的一系列的动作进行说明。此外，本处理通过由控制部900的CPU910将存储在ROM912中的程序在RAM911中加载并执行来实现。

在S1001中，事件信息获取部913经由通信部901获取从车辆100发送来的学习数据，并积蓄在存储部903的DB111中。在S1002中，控制部900判定是否从车辆100接收到事件信息。在接收到事件信息的情况下，控制部900使处理进入S1003，在未接收到事件信息的情况下，控制部900使处理返回至S1001。

在S1003中，探索参数控制部914确定与由事件信息获取部913获取到的事件对应的探索参数。例如，基于预先规定的事件ID，来确定与事件建立起关联的探索参数的值。

在S1004中，探索参数控制部914将所确定的探索参数发送给发送了事件信息的车辆100。若数据收集服务器110向车辆100发送了探索参数，则在之后结束本处理。

这样，数据收集服务器110基于从车辆发送来的事件信息来确定对强化学习的探索的概率进行定义的探索参数，并将所确定的探索参数提供给车辆。由此，数据收集服务器110能够统一管理在实际环境中行驶的多个车辆的探索参数的控制。

<其他实施方式>

在上述实施方式中，在车辆100的控制部200中，在获取反馈数据并使用强化学习计算出策略的基础上，选择与探索的概率相应的策略，并输出控制变量。但是，也可以在数据收集服务器110侧进行该控制部200的处理。即，车辆将反馈数据发送至数据收集服务器。数据收集服务器110在针对接收到的反馈数据使用强化学习计算出策略的基础上，选择出与探索的概率相应的策略，并将与该策略相应的控制变量输出至车辆100。在该情况下，由数据收集服务器110的控制部900来实施参照图7说明的各步骤、以及参照图8说明的各步骤即可。S803中的事件检测也可以从车辆100接收事件检测所需的信息。例如，也可以是，数据收集服务器110具备事件的检测部，从车辆接收制造完成、车辆登记的信息，或者对来自车辆的学习数据的数据量进行统计，或者对从规定的时间点起的经过时间进行统计。

在上述的实施方式中，将车辆100检测出的事件信息发送至数据收集服务器110，并在服务器侧确定基于事件信息的探索参数。但是，本实施方式并不限定于该例子，车辆100也可以基于检测出的事件来确定探索参数。在该情况下，车辆100也可以将关联了事件和探索参数的表格存储在例如ROM212等中，并根据检测到事件的发生这一情况，参照该表格来确定探索参数。这样，具有在车辆内完成与事件相应的探索参数的控制的优点。

另外，在上述实施方式中，数据收集服务器110使用所有车辆共通的、预先规定的与事件和探索参数相关的表格，来确定针对接收到的事件的探索参数。与此相对地，数据收集服务器110也可以针对每个单独的车辆来管理将上述事件和探索参数建立关联的表格，并针对每个单独的车辆，使针对事件的探索参数的值不同。作为一个例子，也可以是，如图11所示的例子那样，在事件与行驶距离相关的情况下(例如，行驶了规定的行驶距离(TH1)以上)，在到该事件发生为止所需的时间比规定时间长的情况下，以使探索参数变小的方式进行修正。例如，与在标准的期间内发生事件2的车辆相比，在经过更长的时间而发生了事件2的情况下，将探索参数的值修正为小于0.02。这样，能够减少无论何时都将探索参数的值设定得较大的车辆的数量，实现这类与单独的车辆的状态相应的控制。

或者，数据收集服务器110也可以使探索参数的值根据车辆的模型(型号)而不同。也可以在已经对类似的车辆的模型收集了充分的数据，用于该车辆的模型的强化学习算法的性能被充分优化的情况下，将对象模型的探索参数设定得较小。

<实施方式的总结>

1、上述实施方式的控制装置(例如，200或100)具有：

检测单元(例如，217)，其对规定系统的生命周期中的事件进行检测；

设定单元(例如，216)，其根据检测到事件这一情况，将根据检测到的事件而确定的探索参数设定为对强化学习中的探索的比例进行调整的值；以及

处理单元(例如，214)，其按照所设定的探索参数来执行使用了强化学习的针对规定系统的规定的控制，

在检测到第一事件的情况下，设定单元以如下方式设定探索参数：使在作为第一事件之后的第一期间设定的探索的比例小于在检测到第一事件之前的第二期间设定的探索的比例。

根据该实施方式，在针对规定系统(例如车辆)的控制中，能够在规定系统的生命周期中持续地兼顾强化学习中的探索和利用。

2、在上述实施方式中，设定单元设定将在第一期间设定的探索的比例设为非零的探索参数。

根据该实施方式，即使在检测到事件之后的期间，也能够继续在学习数据的收集中保留探索性的要素。

3、在上述实施方式中，设定单元设定在第一期间设定的探索的比例和在第二期间设定的探索的比例为非连续的探索参数。

根据该实施方式，能够根据事件的发生而阶段性地降低探索参数。

4、在上述实施方式中，事件包括针对规定系统的手续的完成、规定系统达到特定的使用状态、以及对规定系统进行控制的构成要素的更新中的至少任一项。

根据该实施方式，能够处理规定系统(例如车辆)的生命周期中的多种事件，并且能够根据这些事件的发生来使探索的比例发生变化。

5、在上述实施方式中，针对车辆的手续的完成包括规定系统的制造完成以及规定系统的登记完成中的至少任一项。

根据该实施方式，能够根据针对几个规定系统(例如车辆)的手续而对探索参数进行控制。例如，当完成车辆的制造时，能够使在此之前的开发阶段中设定的探索参数在事件后降低。

6、在上述实施方式中，规定系统达到特定的使用状态包括从规定的时间点起经过了规定天数、从规定的时间点起行驶了规定行驶距离中的至少任一项。

根据该实施方式，能够根据经过天数、行驶距离等规定系统的特定的使用状态而对探索参数进行控制。

7、在上述实施方式中，对规定系统进行控制的构成要素的更新包括在强化学习中使用的学习模型的版本的更新。

根据该实施方式，能够根据在强化学习中使用的学习模型的版本的更新而对探索参数进行控制。

8、在上述实施方式中，所述控制装置还具有确定单元，所述确定单元根据检测出的事件来确定所述探索参数。

根据该实施方式，在规定系统中，能够确定与事件相应的探索参数。

9、在上述实施方式中，所述控制装置还具有：

发送单元(例如，102)，其将检测出的事件发送至外部服务器；以及

接收单元(例如，102)，其从外部服务器接收根据事件而确定的探索参数。

根据该实施方式，能够在外部服务器中进行与事件相应的探索参数的确定，能够节约车辆中的计算机资源。

10、在上述实施方式中，探索参数针对每个规定系统或每个规定系统的模型而不同。

根据该实施方式，通过针对每个单独的规定系统(例如车辆)或每个规定系统的模型来改变探索和利用的兼顾，能够设定与各个规定系统的使用方法、规定系统的模型的特性相应的探索参数。

11、在上述实施方式中，将以由处理单元执行的强化学习的模型为对象的输入信息和输出信息作为学习数据提供给外部服务器。

根据该实施方式，能够向外部服务器发送对强化学习的学习有用的、具有可利用的偏差的数据。

本发明不限于上述的实施方式，可以在本发明的主旨的范围内进行各种变形、变更。

Claims

1.一种控制装置，其使用强化学习对车辆进行规定的控制，其特征在于，

所述控制装置具有：

检测单元，其对所述车辆的生命周期中的事件进行检测；

在检测到与所述车辆的利用开始为止的针对所述车辆的手续的完成、或在用于对所述车辆进行控制的所述强化学习中使用的学习模型的版本的更新相关的第一事件的情况下，所述设定单元以如下方式设定所述探索参数：使在作为所述第一事件之后的第一期间设定的探索的比例小于在检测到所述第一事件之前的第二期间设定的探索的比例。

2.根据权利要求1所述的控制装置，其特征在于，

所述设定单元设定将在所述第一期间设定的探索的比例设为非零的所述探索参数。

3.根据权利要求1所述的控制装置，其特征在于，

所述设定单元设定在所述第一期间设定的探索的比例和在所述第二期间设定的探索的比例为非连续的所述探索参数。

4.根据权利要求1所述的控制装置，其特征在于，

所述第一事件还包括所述车辆达到特定的使用状态。

5.根据权利要求1所述的控制装置，其特征在于，

所述第一事件包括所述车辆的利用开始为止的针对所述车辆的手续的完成，该手续的完成包括所述车辆的制造完成以及所述车辆的登记完成中的至少任一项。

6.根据权利要求4所述的控制装置，其特征在于，

所述车辆达到特定的使用状态包括从规定的时间点起经过了规定天数、从规定的时间点起行驶了规定行驶距离中的至少任一项。

7.根据权利要求1所述的控制装置，其特征在于，

所述第一事件包括在用于对所述车辆进行控制的所述强化学习中使用的学习模型的版本的更新。

8.根据权利要求1所述的控制装置，其特征在于，

所述控制装置还具有确定单元，所述确定单元根据检测到的所述事件来确定所述探索参数。

9.根据权利要求1所述的控制装置，其特征在于，

所述控制装置还具有：

发送单元，其将检测到的所述事件发送至外部服务器；以及

接收单元，其从所述外部服务器接收根据所述事件而确定的所述探索参数。

10.根据权利要求1所述的控制装置，其特征在于，

所述探索参数针对每个车辆或每个车辆的模型而不同。

11.根据权利要求1所述的控制装置，其特征在于，

所述控制装置还具有提供单元，所述提供单元将以由所述处理单元执行的所述强化学习的模型为对象的输入信息和输出信息作为学习数据提供给外部服务器。

12.一种控制装置的控制方法，该控制装置使用强化学习对车辆进行规定的控制，其特征在于，

所述控制装置的控制方法具有：

检测步骤，在该检测步骤中，对所述车辆的生命周期中的事件进行检测；

在所述设定步骤中，在检测到与所述车辆的利用开始为止的针对所述车辆的手续的完成、或在用于对所述车辆进行控制的所述强化学习中使用的学习模型的版本的更新相关的第一事件的情况下，以如下方式设定所述探索参数：使在作为所述第一事件之后的第一期间设定的探索的比例小于在检测到所述第一事件之前的第二期间设定的探索的比例。

13.一种记录介质，其存储执行控制装置的控制方法的命令，该控制装置使用强化学习对车辆进行规定的控制，其特征在于，

14.一种信息处理服务器，其使用强化学习对车辆进行规定的控制，其特征在于，

所述信息处理服务器具有：

检测单元，其对所述车辆的生命周期中的事件进行检测；

发送单元，其将所述处理单元的处理结果发送至所述车辆，

15.一种信息处理方法，其是由信息处理服务器执行的、使用强化学习对车辆进行规定的控制的信息处理方法，其特征在于，

所述信息处理方法具有：

发送步骤，在该发送步骤中，将处理步骤的处理结果发送至所述车辆，

16.一种控制系统，其包括使用强化学习对车辆进行规定的控制的控制装置以及信息处理服务器，其特征在于，

所述控制装置具有：

检测单元，其对所述车辆的生命周期中的事件进行检测；

在检测到与所述车辆的利用开始为止的针对所述车辆的手续的完成、或在用于对所述车辆进行控制的所述强化学习中使用的学习模型的版本的更新相关的第一事件的情况下，所述设定单元以如下方式设定所述探索参数：使在作为所述第一事件之后的第一期间设定的探索的比例小于在检测到所述第一事件之前的第二期间设定的探索的比例，

所述信息处理服务器具有：

确定单元，其根据所述事件来确定所述探索参数；以及

第二发送单元，其将所确定的所述探索参数发送至所述车辆。