CN110073376A

CN110073376A - 信息处理装置和信息处理方法

Info

Publication number: CN110073376A
Application number: CN201780075833.6A
Authority: CN
Inventors: 铃木洋贵; 成平拓也; 大里章人; 中田健人
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-12-14
Filing date: 2017-11-30
Publication date: 2019-07-30
Also published as: WO2018110305A1; EP3557493A1; EP3557493A4; US20190272558A1; JPWO2018110305A1; JP7047770B2

Abstract

本发明的技术涉及使得可以在模拟真实世界的模拟器环境中实现各种事件场景的各种变化的信息处理设备和信息处理方法。报酬提供单元向第一代理和第二代理提供报酬，该第一代理和第二代理在模拟真实世界的模拟器环境中采取行动并且根据相对于行动的报酬来学习行动决策规则。向第一代理提供根据规定的报酬定义的报酬。此外，向第二代理提供根据相反报酬定义的报酬，该相反报酬定义与规定的报酬定义相反使得在第二代理采取行动以创建第一代理的报酬变得更小的状态时获得的报酬变得更大，以及在第二代理采取行动使得第一代理的报酬变得更大时获得的报酬变得更小。本技术应用于例如用于代理的强化学习。

Description

信息处理装置和信息处理方法

技术领域

本技术涉及信息处理装置和信息处理方法，并且具体地涉及允许在例如模拟真实世界的模拟器环境中实现各种事件场景的变化的信息处理装置和信息处理方法。

背景技术

在模拟真实世界的模拟器环境中，称为强化学习的学习被包括在机器学习框架中，其中，在模拟器环境中采取行动的(人工智能)代理学习行动决策规则以根据目的和情况采取期望的行动。

在强化学习中，代理基于包括可观察到的观测值作为分量的状态s根据用作行动决策规则的学习模型确定行动a。代理根据学习模型采取行动a，并且针对行动a接收表示行动a是否适合实现期望目的的报酬r。代理然后使用行动a、采取行动a之后的状态s和用于行动a的报酬r来更新学习模型以增加将来要接收的(一个或多个)报酬r的(总和)。代理根据更新的学习模型来确定行动a，并且随后重复类似的处理。

用于强化学习的学习模型是例如深Q网(网络)(例如，参见NPL 1)。

在强化学习中，根据预定的报酬定义计算报酬r。报酬定义是用于计算报酬的准则，并且是例如诸如以下函数的等式，该函数允许将代理采取行动a之后的状态s与人对代理预期的状态进行核对以定量地表示代理采取行动a之后的状态s是好还是坏。

在强化学习中，将搜索行动与代理的行动混合在一起。特别是在学习的初始时段中，通过随机行动来学习用作行动决策规则的学习模型。在代理采取搜索行动的处理期间，当在真实世界中使用真实硬件时，对真实世界的环境和硬件产生很大的负荷。也就是说，在最坏的情况下，真实世界中的对象和硬件可能会彼此碰撞并且被破坏。

因此，生成了模拟真实世界的模拟器环境，并且通过执行模拟来实现代理的强化学习，在该模拟中使(虚拟)代理在模拟器环境下采取行动。

在模拟器环境中完成代理的学习之后，将代理的(学习模型)应用于实际装置等以允许装置等在真实世界中采取适当的行动(执行适当的操作)。

引用列表

非专利文献

[NPL 1]

Mnih，Volodymyr等人，“Human-level control through deep reinforcementlearning”,自然518.7540(2015)：529-533。

发明内容

技术问题

在旨在学习的代理A与不旨在学习的代理B在模拟器环境中共存的情况下，代理B例如被编程为根据预定规则而采取行动。

在该情况下，允许代理B仅采取初步假定的行动。因此，在模拟器环境中可再现的场景的变化是有限的。

另一方面，对于旨在学习的代理A的学习，生成适合于在真实世界中很少发生的异常事件的行动的能力通常非常重要。

例如，在代理A是用作学习车辆控制规则的自动驾驶车辆的代理，并且代理B是用作另一车辆的代理，例如自行车、行人等的情况下，则例如，根据现实的、标准的物理模型或行动模型来预先编程用作自行车、行人等的代理B的行动。

然而，在代理B的行动被编程的情况下，难以在模拟器环境中再现可能异常发生的各种事件(例如，行人跑进街道中的事件和车辆行驶错误道路的事件)的场景的变化。

鉴于这些情况，本技术的目标是允许在模拟真实世界的模拟器环境中实现各种事件的场景的变化。

问题的解决

本技术的信息处理装置包括：模拟器环境生成单元，生成模拟真实世界的模拟器环境；以及用于第一代理和第二代理的报酬提供单元，该第一代理和第二代理在模拟器环境中采取行动并且根据针对行动的报酬来学习行动决策规则，该报酬提供单元向第一代理提供根据规定的报酬定义的报酬并且向第二代理提供根据与规定的报酬定义相反的相反报酬定义的报酬，相反报酬定义在第二代理采取行动而引起用于第一代理的报酬减少的状况的情况下使所得到的报酬增加并且在第二代理采取行动而增加用于第一代理的报酬的情况下使所得到的报酬减少。

本技术的信息处理方法，包括：生成模拟真实世界的模拟器环境，以及针对在模拟器环境中采取行动并且根据针对行动的报酬来学习行动决策规则的第一代理和第二代理，向第一代理提供根据规定的报酬定义的报酬并且向第二代理提供根据与规定的报酬定义相反的相反报酬定义的报酬，相反的报酬定义在第二代理采取行动而引起用于第一代理的报酬减少的状况的情况下使所得到的报酬增加并且在第二代理采取行动而增加用于第一代理的报酬的情况下使所得到的报酬减少。

在本技术的信息处理装置和信息处理方法中，向在模拟真实世界的模拟器环境中采取行动并且根据用于行动的报酬来学习行动决策规则的第一代理和第二代理提供报酬。向第一代理提供根据规定的报酬定义的报酬。此外，向第二代理提供根据与规定的报酬定义相反的相反报酬定义的报酬，相反报酬定义在第二代理采取行动而引起用于第一代理的报酬减少的状况的情况下使所得到的报酬增加并且在第二代理采取行动而增加用于第一代理的报酬的情况下使所得到的报酬减少。

信息处理装置可以是独立装置或被包括在一个装置中的内部块。

此外，信息处理装置可以通过使计算机执行程序来实现。可以通过经由传输介质传输或者记录在记录介质中来提供这样的程序。

发明的有益效果

在本技术中，在模拟真实世界的模拟器环境中，可以实现各种事件的场景的变化。

此处描述的效果不一定是受限的，而可以是本公开内容中描述的效果的任何一种。

附图说明

图1是示出强化学习的概要的图。

图2是示出根据应用本技术的模拟系统的实施方式的功能配置的示例的框图。

图3是示出代理A的功能配置的示例的框图。

图4是示意性示出由模拟器环境生成单元32生成的模拟器环境的示例的平面图。

图5是示出代理A的状态s的分量的示例的图。

图6是示出代理A的行动a的示例的图。

图7是示出代理A的学习单元65的学习和行动决定单元66的行动决定的示意图。

图8是示出用于代理A的报酬定义的示例的图。

图9是示出代理B的示例的图。

图10是示出代理A的处理的示例的流程图。

图11是示出模拟器环境提供单元31的处理的示例的流程图。

图12是示意性示出用于代理A或B的报酬的变化模式的示例的图。

图13是示出在用户I/F 40上显示的GUI的显示的示例的图。

图14是示出用于发出警告的警告发出处理的示例的流程图。

图15是示出用于发出警告的警告发出处理的示例的流程图。

图16是示出根据应用本技术的计算机的实施方式的配置的示例的框图。

具体实施方式

<强化学习的概要>

图1是示出强化学习的概要的图。

旨在学习的代理10是虚拟代理，并且包括实验DB(数据库)11、学习单元12和行动决定单元13。

代理10被放置在模拟真实世界的模拟器环境中。

在代理10中，行动决定单元13基于包括由代理10可观察的观察值作为分量的状态s根据用作行动决策规则π*(a|s)的学习模型来决定行动a。代理10在模拟器环境中采取由行动决定单元13所决定的行动(下文中也被称为决定行动)。

例如，行动决策规则π*(a|s)是用于各种状态的行动a的概率分布，并且将用于状态s的具有最高概率的行动a决定为由代理10采取的行动(决定行动)。

代理10针对行动a从模拟器环境接收表示决定行动a是否适合于实现期望目的报酬r。

此外，在代理10中，学习单元12使用(决定的)行动a、采取行动a之后的状态s和用于行动a的报酬r以使代理10学习行动决策规则π*(a|s)(用作行动决策规则π*(a|s)的学习模型)，以便增加将来要接收的(一个或多个)报酬r的(总和)。

在代理10中，行动决定单元13基于采取行动a之后的状态s根据所学习的行动决策规则π*(a|s)来决定下一行动a。随后重复类似的处理。

在时间点t处的状态s、行动a和报酬r分别表示为状态s_t、行动a_t和报酬r_t，并且实验DB 11存储状态s、行动a和报酬r的时间序列(s₁,a₁,r₁,s₂,a₂,r₂,……s_N,a_N,r_N,……)。

学习单元12使用存储在实验DB 11中的状态s、行动a和报酬r的时间序列来学习使期望报酬最大化并且由等式(1)限定的行动决策规则π*(a|s)。

π^*(a|S)＝argmax_πE[∑γ^tR(s_t，a_t，s_t+1)|s₁＝s(1)，a₁＝a(1)] (1)

在等式(1)中，argmax_π[x]表示使x最大化的行动决策规则π中之一，并且E[x]表示x的期望值。∑表示具有从初始值1至∞变化的t的总和。γ是称为针对其采用大于或等于0且小于1的值的折扣率的参数。R(s_t,a_t,s_t+1)表示在状态s中与当由代理10采取行动a_t造成状态s_t+1时获得的报酬r对应的标量值。s(1)表示时间点t＝1处的状态(的初始值)，并且a(1)表示时间点t＝1处的行动(的初始值)。

在等式(1)中，E[∑γ^tR(s_t，a_t，s_t+1)|s₁＝s(1)，a₁＝a(1)]表示期望报酬，也就是说，将来要获得的报酬r的总和∑γ^tR(s_t，a_t，s_t+1)的期望值。

因此，根据等式(1)，π^*(a|s)是使期望报酬E[∑γ^tR(s_t，a_t，s_t+1)|s₁＝s(1)，a₁＝a(1)]最大化的行动决策规则π之一。

<应用本技术的模拟系统的实施方式>

图2是示出应用本技术的模拟系统的实施方式的功能配置的示例的框图。

在图2中，模拟系统包括模拟器30和用户I/F(接口)40。

模拟器30包括旨在学习的(虚拟)代理A(第一代理)和不旨在学习的(虚拟)代理B(第二代理)。

在图2中，仅有一个代理A是旨在学习的。然而，多个代理可以旨在学习。这也适用于不旨在学习的代理。也就是说，模拟器30可以设置有一个或更多个旨在学习的代理和一个或更多个不旨在学习的代理。

除代理A和B之外，模拟器30包括模拟器环境提供单元31和输入/输出控制单元36。

模拟器环境提供单元31包括模拟器环境生成单元32、报酬提供单元33和学习状态确定单元34以执行与模拟器环境的提供有关的各种处理。

模拟器环境生成单元32生成并且提供模拟器环境。代理A和B在由模拟器环境生成单元32提供的模拟器环境中采取行动，并且通过强化学习来学习行动决策规则。

报酬提供单元33观察代理A和B以及模拟器环境，并且基于观察结果来计算和提供用于代理A和B(的行动a)的报酬r。

报酬提供单元33根据规定的报酬定义计算用于代理A的报酬r，并且根据与用于代理A的报酬定义相反的相反报酬定义来计算用于代理B的报酬r。

与用于代理A的报酬定义相反的相反报酬定义是指以下报酬定义：该报酬定义在代理B采取行动而引起用于代理A的报酬减少的状况的情况下使结果报酬增加并且在代理B采取行动而增加用于代理A的报酬的情况下使结果报酬减少。

除具有小的、正值的报酬之外，减少的报酬包括具有零或负值的报酬。

学习状态确定单元34例如根据由报酬提供单元33计算出的用于代理A和B的报酬的变化模式来确定由代理A和B进行的(行动决策规则π^*(a|s)的)学习的学习状态。

输入/输出控制单元36控制将信息输入至用户I/F 40和从用户I/F 40输出信息。

用户I/F 40包括向用户发送信息并且从用户接收信息的设备，例如触摸面板、显示器、扬声器、键盘、指示设备和通信I/F。

输入/输出控制单元36用作显示控制单元，该显示控制单元使在用户I/F 40中包括的触摸面板和显示器显示诸如GUI(图形用户界面)的图像和任何其他信息。

此外，输入/输出控制单元36用作输出控制单元，该输出控制单元使在用户I/F 40中包括的扬声器输出声音和任何其他声学信息。

输入/输出控制单元36还用作接受单元，该接受单元接受由用户对用作用户I/F40、可操作的GUI等的触摸面板、键盘和指示设备的操作的输入。

输入/输出控制单元36还用作发出控制单元，该发出控制单元使用户I/F 40根据代理A或B的学习状态而发出警告。也就是说，输入/输出控制单元36使在用户I/F 40中包括的触摸面板、显示器和扬声器输出(显示)用作警告的消息。输入/输出控制单元36还例如使在用户I/F 40中包括的通信I/F发送用作警告的邮件或任何其他消息。

<代理A和B的配置示例>

图3是示出图2中的代理A的功能配置的示例的框图。

代理B也可以与图3中的代理A类似地被配置。

代理A包括行动规划单元61、周围环境信息获取单元62、数据获取单元63、数据库64、学习单元65、行动决定单元66和行动控制单元67。

行动规划单元61执行例如设置用于代理A的目标路线作为规划行动。行动规划单元61还在用于代理A的目标路线上例如以一定间隔设置点(下文中也称为“路标点”)。

周围环境信息获取单元62获取与代理A在模拟器环境中的周围环境有关的信息(下文中也称为周围环境信息)。

也就是说，周围环境信息获取单元62通过在模拟器环境中感测距存在于代理A周围的特定对象的距离来获取由距离传感器例如激光雷达获得的距离信息(可以通过真实世界中的距离传感器的感测来获得的距离信息)作为周围环境信息。

数据获取单元63获取由代理A可观察的观察值以将包括观察值作为分量的矢量确定为状态s。例如，数据获取单元63获取由行动规划单元61设置的路标点(的坐标)、由周围环境信息获取单元62获取为周围环境信息的距离信息等，并且将包括路标点、距离信息等作为分量的矢量确定为状态s。

数据获取单元63还获取由行动决定单元66确定的行动a和由报酬提供单元33(图2)提供的报酬r。

数据获取单元63按时间顺序将状态s、行动a和报酬r馈送至数据库64。

数据库64存储从数据获取单元63馈送的状态s、行动a和报酬r的时间序列。

学习单元65根据需要使用在数据库64中存储的状态s、行动a和报酬r来学习(更新)用作行动决策规则π^*(a|s)的学习模型。例如，可以采用深Q网作为学习模型。

行动决定单元66基于在数据库64中存储的最新状态s根据由学习单元65学习到的深Q网来决定行动a。行动决定单元66然后将行动a(与其有关的信息)馈送到行动控制单元67。

行动控制单元67控制代理A以使代理A采取由行动决定单元66提供的(决定的)行动a。

<模拟环境的示例>

图4是示意性示出由模拟器环境生成单元32(图2)生成的模拟器环境的示例的平面图。

图4中的模拟器环境是模拟真实世界中特定道路交通环境的环境。

在以下描述中，使用允许通过学习来采取自主行动的汽车(自动驾驶车辆)的代理作为代理A。使用在真实世界中与汽车共存的人类或自行车的代理作为代理B。以下描述是基于这样的代理A和B被放置在模拟器环境中的假设。

<代理A的状态s的分量的示例>

图5是示出代理A的状态s的分量的示意图。

可以采用由距离传感器例如激光雷达通过在模拟器环境中感测距存在于代理A周围的特定对象的距离而获得的距离信息(可以通过真实世界中的距离传感器的感测来获得的距离信息)作为代理A的状态s的分量。

可以在代理A周围的多个方向上获得距离信息。可以采用获取距离信息的方向(距离信息中的方向)作为代理A的状态s的分量。

此外，可以采用在目标路线上接近代理A的多个路标点的相对坐标(Δx，Δy)作为代理A的状态s的分量，其中代理A的位置用作相对坐标的参考。

此外，可以采用代理A的速度作为代理A的状态s的分量。

可以采用具有多个维度(例如，810维度)的矢量作为代理A的状态s，该矢量包括与多个帧中的方向有关的距离信息、距离信息中的方向、多个路标点的相对坐标(Δx，Δy)和代理A的速度作为分量。

<代理A的行动的示例>

图6是示出代理A的行动a的图。

与汽车代理(模拟汽车的代理)对应的代理A的行动a旨在例如当驾驶汽车时操作如图6的A处所示的方向盘、加速踏板、制动踏板等。

此处，为了便于描述，采用方向盘和加速踏板作为代理A的行动a的目标。此外，采用以规定角加速度移动方向盘以及以规定的加速度移动加速踏板作为代理A的行动a。此外，针对方向盘的角加速度，采用了-α、0和+α三个角加速度；正值指示顺时针方向。针对加速踏板的加速度，采用了-α、0和+β；正值指示踩下加速踏板的方向。

在该情况下，代理A的行动a包括与方向盘的三个角加速度-α、0和+α和加速器踏板的三个加速度-β、0和+β对应的行动组合的九种类型。

行动a的九种类型用符号a＝1,2,……,9来表示。

<代理A的学习和行动决策的示例>

图7是示出在代理A的学习单元65中学习的示例和在行动决定单元66中的行动决定的示例的图。

学习单元65执行例如深Q网的学习(深度强化学习)作为使期望报酬最大化的行动决策规则π^*(a|s)的学习。

在本实施方式中，深Q网使用具有多个维度(例如，810个维度)的矢量作为状态s，该矢量包括与多个帧中的方向有关的距离信息、距离信息中的方向、多个路标点的相对坐标(Δx，Δy)和代理A的速度作为分量，并且相对于状态s的输入，分别输出用于具有九个符号a＝1,2，……,9的行动a的值函数Q(s,1)、Q(s,2)、……、Q(s,9)的函数值。

在学习单元65中的学习时，根据当代理A在特定状态s下采取特定行动a时获得的报酬r来更新值函数Q(s,a)。例如，更新值函数Q(s,a)使得函数值与报酬r一致增加。

行动决定单元66基于状态s根据所学习的(更新的)深Q网来确定行动a。

也就是说，行动决定单元66将状态s输入至深Q网，并且将行动a＝f(s)＝argmax_aQ(s，a)决定为决定行动；行动a＝f(s)＝argmax_aQ(s，a)与具有从输入分别获得的用于具有九个符号a＝1,2,……,9的行动的值函数Q(s,1)，Q(s,2),……,Q(s,9)的最大函数值的值函数Q(s,a)对应。

<用于代理A的报酬定义的示例>

图8是示出用于代理A的报酬定义——即，用于计算用于代理A的报酬r的报酬定义——的示例。

用于代理A的报酬定义可以使用用作安全驾驶的指标的变量(例如，表示“不碰撞”的变量R1、表示“沿着路线以适当的车速”行驶的变量R2和表示“跟随路线”(不驶离路线)的变量R3)来表示。

例如，在发生碰撞的情况下采用1并且在没有发生碰撞的情况下采用0作为变量R1。例如，采用表示代理A的速度的速度矢量v1和连接距代理A最近的两个路标点的矢量v2的内积作为变量R2。例如，采用代理A与距代理A最近的一个路标点之间的距离作为变量R3。变量R1至R3可以是报酬计算所基于的度量。

在该情况下，用于代理A的报酬定义可以例如通过使用ω₁、ω2和ω₃作为权重的等式(2)来表示。

r＝ω₁R1+ω₂R2+ω₃R3 (2)

例如可以采用ω₁＝-20000、ω₂＝300和ω₃＝-500作为权重ω₁、ω₂和ω3。

根据公式(2)中的报酬定义，权重ω₁、ω₂和ω₃的设置允许在报酬设置中调整R1至R3中的哪一个被关注。

例如，在权重ω₁被设置为负的、较大值的情况下，当代理A在模拟器环境中撞到不同于代理A的墙壁、人类或车辆时计算具有负的、较大值的报酬r。此外，例如，在权重ω₂被设置为较大值的情况下，当代理A沿着目标路线以适当的车速行驶时计算具有正的、较大值的报酬r。

<代理B>

图9是示出代理B的示例的图。

例如，可以采用人类(行人)代理作为代理B。代理B例如被配置成学习移动到作为目标(行动)提供的目标点，并且能够采取以根据从当前点到目标点的位置矢量而确定的范围内的速度移动的行动。

此外，如图9所示，假设代理B能够观察代理A的相对于代理B的速度矢量v1和相对位置(坐标)，该代理A位于距(位于最接近于)代理B给定的距离处。

此外，针对代理B，采用深Q网作为如针对代理A一样的学习模型。可以采用包括上述代理A的相对位置和速度矢量v1作为分量的矢量作为代理B的状态s。

如针对图2所述，报酬提供单元33根据与用于代理A的报酬定义相反的相反报酬定义来计算用于代理B的报酬r。

采用以下报酬定义作为与针对图8描述的用于代理A的报酬定义相反的相反报酬定义，通过所述报酬定义针对代理B跑进代理A的路线并与代理A碰撞的行动来计算出正报酬。

具体地，可以采用以下报酬定义作为相反的报酬定义，通过所述报酬定义所计算出的正值随着与位于代理A的前面N个步骤(时间点)的预测位置pp相对于代理B的位置的相对距离的减小而增大。

此外，例如，可以采用以下报酬定义作为相反的报酬定义，通过所述报酬定义在用于代理A的报酬为负的情况下和在代理A与代理B碰撞的情况下计算出正报酬。

除了上述相反的报酬定义之外，用于代理B的报酬定义包括以下报酬定义，所述报酬定义采用例如“将平均移动速度收敛到给定值的附近(例如，人类在真实环境中的平均行走速度)”作为与代理B的适当行动有关的指标并且通过所述报酬定义在实现该指标的情况下计算出正报酬。

表示用于代理B的报酬的指标的数值变量表示为U1、U2、U3……，并且权重表示为V₁、V₂、V₃……。例如，采用根据等式(3)通过其计算出报酬r的报酬定义作为用于代理B的报酬定义。

r＝U1×V₁+U2×V₂+U3×V₃+…(3)

<代理A和B的处理的示例>

图10是示出图3中的代理A的处理的示例的流程图。

在步骤S11中，代理A的数据获取单元63获取最新的状态s、报酬r和行动a并且将其存储在数据库64中。处理进行至步骤S12。

在步骤S12中，学习单元65使用在数据库64中存储的状态s、行动a和报酬r来执行用作学习模型的深Q网的学习(更新深Q网)。处理进行至步骤S13。

在步骤S13中，行动决定单元66基于在数据库64中存储的最新状态s根据由学习单元65学习到的深Q网来决定行动a。处理进行至步骤S14。

在步骤S14中，行动控制单元67控制代理A以使代理A采取由行动决定单元66提供的(决定的)行动a。处理从步骤S14返回到步骤S11，并且重复类似的处理。

代理B执行与代理A的处理类似的处理。

<模拟器环境提供单元31的处理的示例>

图11是示出图2中的模拟器环境提供单元31的处理的示例的流程图。

在步骤S21中，模拟器环境提供单元32生成模拟器环境。处理进行至步骤S22。执行图10中的处理的代理A和B被放置在由模拟器环境生成单元32生成的模拟器环境中。

在步骤S22中，报酬提供单元33观察代理A和B以及模拟器环境，并且基于观察的结果根据图8中描述的用于代理A的报酬定义来计算用于代理A(的行动a)的报酬r。

此外，报酬提供单元33基于对代理A和代理B的观察结果以及模拟环境根据针对图9描述的用于代理B的报酬定义——即，与用于代理A的报酬定义相反的相反报酬定义——来计算用于代理B(的行动a)的报酬r。

报酬提供单元33然后向代理A提供用于代理A的报酬r，并且向代理B提供用于代理B的报酬r。处理从步骤S23返回到步骤S22，并且重复类似的处理。

如上所述，报酬提供单元33向代理A提供基于规定的报酬定义的报酬，并且向代理B提供基于与代理A的报酬定义相反的相反报酬定义的报酬。因此，代理B采取行动而引起最坏的情况或各种异常可能的事件(例如，自行车、人类等跑进到路线中)。因此，可以在模拟器环境中实现各种事件场景的变化。

此外，与车辆的代理对应的代理A在实现各种事件场景的变化的模拟器环境中执行学习。这允许代理A获取使代理A对包括异常事件的各种事件采取稳健的、适当行动的行动决策规则。将行动决策规则应用于车辆控制以允许实现自动驾驶。

也可以进行以下处理。代理A和B在由模拟器环境生成单元32生成的模拟器环境中执行学习。然后，将在另一个模拟器环境中已学习自动驾驶的代理C与已完成学习的代理B一起引入到由模拟器环境生成单元32生成的模拟器环境中。这允许定量测量代理C应用于环境的程度，即，例如由代理C学习自动驾驶的适当性。

<报酬r的变化模式>

在图12中，横坐标轴指示步长数(时间)，以及纵坐标轴指示报酬。

当代理A和B在模拟道路交通环境的模拟器环境中执行学习时，代理B最初采取随机行动。然而，随着学习的适当进行，代理B逐渐开始采取如接近并且碰撞代理A这样的行动。

另一方面，代理A最初也采取随机行动(运动)。然而，随着学习的适当进行，代理A逐渐开始采取如避免沿着目标路线碰撞墙壁等并且避免代理B跑进到路线中这样的行动。

代理B基于与用于代理A的报酬定义相反的相反报酬定义来接收报酬，并且因此可以在模拟器环境中引起在真实世界中很少发生的异常事件(例如，人类、自行车等跑进路线中)。代理A可以学习在遇到这样的异常事件时采取的适当的行动(例如，避免与代理B的碰撞)。

由代理A和B作为学习的结果而采取的行动例如根据诸如权重ω_i和V_i的值的学习条件的设置来变换，该权重ω_i和V_i的值限定用作用于代理A和B的报酬定义的公式(2)和公式(3)。

学习可以取决于学习条件的设置而失败。因此，例如，在学习期间在适当的定时处适当地调整学习条件例如权重ω_i和V_i的值，从而使得学习能够适当地进行。以上所述的学习条件的调整称为学习困难水平调整。以适当调整的学习条件执行的学习称为课程学习。

在课程学习中，例如，在学习开始时，设置学习条件以执行实现简单目标的行动的学习，以及随着学习的进行以执行实现困难目标的行动的学习。

具体地，在学习开始时，例如，可以进行调整以将用作学习条件的、公式(2)中的权重ω_i包括的权重ω₁和ω₂固定为0。在学习稍微适当进行的情况下，可以进行调整以将用作学习条件的公式(2)中的权重ω_i中包括的仅权重ω₁固定为0。在学习进一步适当进行情况下，可以清除用作学习条件的公式(2)中权重ω₁的固定，并且可以在权重ω₁至ω₃都不固定的情况下执行学习。

也可以进行以下：根据学习的进度逐渐增加用作学习条件的代理B的数目的调整、根据学习的进度逐渐增加用作学习条件的代理B的速度的调整、根据学习的进度以不同速度逐渐增加用作学习条件的代理B的数目的调整等。

可以根据图2中模拟系统的操作者的操作来执行学习条件的调整(设置)以允许学习有策略地进行。

例如，用户可以通过操作用户I/F 40(图1)来调整用作学习条件的权重ω_i和V_i(的值)。

也就是说，输入/输出控制单元36可以使用户I/F 40显示用于调整权重ω_i和V_i的GUI。此外，输入/输出控制单元36可以接受操作者对在用户I/F 40上显示的GUI的操作。报酬提供单元33可以根据由输入/输出控制单元36接受的GUI的操作来调整用作报酬参数的权重ω_i和V_i。

在代理A和B的学习时段期间，学习状态确定单元34(图2)可以记录提供给各个代理A和B的报酬的日志。

在引入多个代理A的情况下，可以记录提供给各个代理A的报酬的单个日志，或者可以记录提供给各个代理A的报酬的平均值。这也适用于代理B。

输入/输出控制单元36可以使用报酬的日志以在用户I/F 40上显示按时间顺序绘制提供给代理A和B的报酬的图形(下文中称为报酬图)。

操作者可以针对学习状态(学习的进行的程度等)视觉上检查在用户I/F 40上显示的报酬图，并且，基于学习状态确定定时以调整用于报酬的参数(此处，权重ω_i和V_i)。

在可用性方面，操作者继续针对学习状态视觉上检查报酬图是对操作者的负担。

因此，学习状态确定单元34可以基于报酬图来确定学习状态，并且输入/输出控制单元36可以根据学习状态来控制提示调整用于报酬的参数的警告的发出。

可以通过例如在用户I/F 40上的弹出式窗口显示提示调整用于报酬的参数的消息、通过邮件发送消息或听觉上输出消息来发出该警告。

图12示出用于代理A或B的报酬的报酬图的示例。

图12的报酬图示出了用于代理A或B的报酬的移动平均值的时间序列。

在代理A或B的学习适当进行的情况下，如图12中的A处所示，报酬图的变化模式是具有不断增加的模式p1。因此，在报酬图的变化模式是与学习状态有关的模式p1的情况下，可以确定学习具有指示学习稳步进行的状态以适当地改进代理A或B的行动。

在代理A或B的学习收敛的情况下，如图12中B处所示，报酬图的变化模式是在增加之后的给定时间段或更长时间内具有收敛的模式p2(变化宽度已保持在规定阈值之间的范围内)。因此，在报酬图的变化模式是与学习状态有关的模式p2的情况下，可以确定学习具有指示在当前学习条件(任务难度水平)下已成功学习的状态。

在代理A或B的学习没有适当进行(学习已失败)的情况下，如图12中的C处所示，报酬图的变化模式是相对于在开始学习时(或者在调整用于报酬的参数之后)获得的报酬在给定时间段或更长的时间段内具有基本上没有变化的模式p3。因此，在报酬图的变化模式是与学习状态有关的模式p3的情况下，可以确定学习具有指示学习已经失败的状态。

在代理A或B的学习适当进行的情况下，除如图12中的A处所示的持续增加之外，如图12中的D处所示，报酬图可以指示例如增加之后的临时减少或基本上没有变化之后的重新开始增加。

图12中的D处指示增加之后的临时减少或基本上没有变化之后的重新开始增加的报酬图的变化模式未能与图12中的A处具有连续增加的模式p1匹配。然而，图12中的D处的报酬图的变化模式与模式p1匹配在于在学习适当地进行的情况下该模式出现以及该模式最终指示增加。因此将图12中的D处的报酬图的变化模式分类为模式p1。

学习状态确定单元34确定报酬图的变化模式并且因此确定学习状态以输出报酬图的变化模式的确定结果作为学习状态的确定结果。

输入/输出控制单元36使用户I/F 40根据由学习状态确定单元34提供为学习状态的确定结果的报酬图的变化模式(的确定结果)来发出提示调整用于报酬的参数的警告。

例如，在学习状态确定单元34确定报酬图的变化模式为图12中的A或D处的模式p1的情况下，学习已经稳步地进行，并且因此输入/输出控制单元36阻止使警告发出。此外，模拟器环境提供单元31使代理A和B继续学习而没有任何变化。

此外，例如，在学习状态确定单元34确定报酬图的变化模式为图12中的B处的模式p2的情况下，学习已在当前学习条件下取得成功并且已收敛。因此，输入/输出控制单元36通过使用户I/F 40显示指示成功和收敛的消息来发出警告，“学习已收敛。需要重置权重参数”。此外，模拟器环境提供单元31使代理A和B暂停学习。

操作者接收用作警告的消息，“学习已收敛。需要重置权重参数”，并且操作GUI以调整用于报酬的参数并且重置其他学习条件。操作者还操作GUI以指示重新开始学习以允许代理A和B重新开始学习。

替选地，操作者接收用作警告的消息，“学习已收敛。需要重置权重参数”，并且确定代理A和B已执行足够的学习。因此，操作者操作GUI以允许结束代理A和B的学习。

此外，例如，在学习状态确定单元34确定报酬图的变化图案为图12中的C处的模式p3的情况下，在当前学习条件下的学习已失败，并且输入/输出控制单元36通过使用户I/F40显示指示失败的消息来发出警告，“学习已失败。需要重置权重参数”。此外，模拟器环境提供单元31使代理A和B暂停学习。

操作者接收用作警告的消息，“学习已失败。需要重置权重参数”，并且操作GUI以调整用于报酬的参数并且重置其他学习条件。操作者还操作GUI以指示重新开始学习以允许代理A和B重新开始学习。

在学习失败的情况下，当利用被接管的失败的学习期间的学习结果(下文中也称为失败结果)重新开始学习时，失败结果可以影响重新开始之后的学习。因此，在学习失败的情况下，代理A和B可以接管在学习收敛时获得的最新学习结果(在学习未收敛的情况下接管预定初始值等)并且重新开始学习。用于代理A和B的过去学习结果可以由代理A和B或由模拟器环境提供单元31管理和存储。

<GUI的显示示例>

图13是示出在用户I/F 40上显示的GUI的显示示例的图。

在图13中，将模拟器环境、滑块81和82和用作警告的消息(下文中也称为警告消息)显示为GUI。

滑块81被操作成调整用作用于代理A的报酬的参数的权重ω_i。滑块82被操作成调整用作用于代理的B的报酬的参数的权重V_i。

图13中的A示出了在代理A的报酬图的变化模式是图12中的C处的模式p3的情况下显示的GUI的显示示例。

在代理A的报酬图的变换模式是模式p3的情况下，在当前学习条件下代理A的学习已失败。因此，图13中的A处的警告消息是指示代理A的学习已失败并且提示调整代理A的参数(权重ω_i)的“代理A的学习已失败。重置权重参数”。

在图13中的A处，为了提示仅调整用于代理A的报酬的参数，设置滑块81和82使得用于代理A的滑块81(用于调整用于代理A的报酬的参数的滑块)处于可以操作滑块81的启用状态，而用于代理B的滑块82处于阻止对滑块82进行操作的禁用状态。

在该情况下，防止操作者当代理B的学习已经适当地进行而不是已经失败时不注意操作用于代理B的滑块82。此外，操作者可以容易地识别出用于代理A的滑块81是要操作的。

图13中的B示出了代理A和B的报酬图的变化模式两者都是在图12中的B处的模式p2的情况下显示的GUI的显示示例。

在代理A和B的报酬图的变化模式两者都是模式p2的情况下，由于代理A和B两者的学习已成功，因此在图13中的B处的警告消息是指示代理A和B两者的学习已成功并且提示调整用于代理A和B的参数(权重ω_i和V_i)的“学习已收敛。重置权重参数”。

此外，在图13中的B处，用于代理A的滑块81和用于代理B的滑块82两者都处于可以操作滑块的启用状态。

因此，操作者可以容易地识别出用于代理A的滑块81和用于代理B的滑块82是要操作的。

图13中的C示出了代理B的报酬图的变化模式是图12中的C处的模式p3的情况下显示的GUI的显示示例。

在代理B的报酬图的变化模式是模式p3的情况下，在当前学习条件下代理B的学习已失败，并且在图13中的C处的警告消息是指示代理B的学习已失败并且提示调整用于代理B的报酬的参数(权重V_i)的“代理B的学习已失败。重置权重参数”。

在图13中的C处，为了提示仅调整用于代理B的报酬的参数，设置滑块81和82使得用于代理B的滑块82处于可以操作滑块82的启用状态，而用于代理A的滑块81处于阻止对滑块81进行操作的禁用状态。

在该情况下，防止操作者当代理A的学习已适当地进行而不是已失败时不小心操作用于代理A的滑块81。操作者还可以容易地识别出用于代理B的滑块82是要操作的。

在图13中，在代理A和B的报酬图的变化模式两者都是模式p2并且代理A和B两者的学习已成功的情况下，如图13中的B处所示，发出以下警告，该警告显示指示例如学习的成功(下文中也称为成功消息)的诸如“学习已收敛。重置权重参数”的警告消息。然而，可以针对代理A和B中的每一个单独发出包括成功消息的显示的警告。

也就是说，例如，在代理A的报酬图的变化模式是模式p2并且代理A的学习已成功的情况下，可以发出以下警告，该警告显示指示例如无论代理B的学习状态如何代理A的学习成功的成功消息。

在该情况下，与图13中的A的情况一样，设置滑块81和82使得用于代理A的滑块81处于启用状态，而用于代理B的滑块82处于禁用状态。

此外，例如，在代理B的报酬图的变化模式是模式p2并且代理B的学习已成功的情况下，可以发出警告，该警告显示指示例如无论代理A的学习状态如何代理B的学习成功的成功消息。

在该情况下，与图13中的C的情况一样，设置滑块81和82使得用于代理B的滑块82处于启用状态，而用于代理A的滑块81处于禁用状态。

<警告发出处理>

图14是示出用于发出如图12和图13所描述的警告的警告发出处理的示例的流程图。

图15是接着图14的流程图。

在警告发出处理中，在步骤S41中，学习状态确定单元34获取最新的预定时段内的代理A和B的报酬图。处理进行到步骤S42。

在步骤S42中，学习状态确定单元34基于代理A的报酬图的变化模式确定代理A的学习状态。也就是说，在步骤S42中，学习状态确定单元34确定代理A的报酬图的变化模式是否是图12中的C处的模式p3。

在步骤S42中，在代理A的报酬图的变化模式被确定成不是模式p3的情况下，处理跳过步骤S43至S46进行到步骤S47。

此外，在步骤S42中代理A的报酬图的变化模式被确定成是模式p3的情况下，代理A暂停学习，并且处理进行到步骤S43。

在步骤S43中，输入/输出控制单元36在用作警告消息的可变文本中设置消息“代理A的学习已经失败。重置权重参数”，该消息指示代理A的学习已失败并且提示调整用于代理A的报酬的参数(权重ω_i)。

此外，在步骤S43中，输入/输出控制单元36使用户I/F 40显示在用作警告消息的可变文本中设置的消息以发出警告。处理进行到步骤S44。

在步骤S44中，输入/输出控制单元36将所有的滑块81和82的激活初始化成禁用状态以将滑块81和82设置成操作禁用状态。处理进行到步骤S45。

在步骤S45中，输入/输出控制单元36将用于代理A的滑块81的激活设置为启用状态以设置操作启用状态。处理进行到步骤S45。

如上所述，提供图13中的A处的显示，从而允许用户认识到代理A的学习已失败并且需要调整用于代理A的报酬的参数。用户还可以操作用于代理A的滑块81以调整用于代理A的报酬的参数。

在步骤S46中，输入/输出控制单元36确定用户I/F 40是否已被操作成重新开始学习。在确定用户I/F 40未被操作成重新开始学习的情况下，处理返回到步骤S46。

此外，在步骤S46中，在确定用户I/F 40已被操作成重新开始学习的情况下，代理A重新开始学习，并且处理进行到步骤S47。

在步骤S47中，学习状态确定单元34基于代理B的报酬图的变化模式来确定代理B的学习状态。也就是说，在步骤S47中，学习状态确定单元34确定代理B的报酬图的变化模式是否是图12中的C处的模式p3。

在步骤S47中，在确定代理B的报酬图的变化模式不是模式p3的情况下，处理跳过步骤S48至步骤S51进行到图15中的步骤S61。

此外，在步骤S47中，在确定代理B的报酬图的变化模式是模式p3的情况下，代理B暂停学习，并且处理进行到步骤S48。

在步骤S48中，输入/输出控制单元36在用作警告消息的可变文本中设置消息“代理B的学习已失败。重置权重参数”，该消息指示代理B的学习已失败并且提示调整用于代理B的报酬的参数(权重ω_i)。

此外，在步骤S48中，输入/输出控制单元36使用户I/F 40显示在用作警告消息的可变文本中设置的消息以发出警告。处理进行到步骤S49。

在步骤S49中，输入/输出控制单元36将所有的滑块81和82的激活初始化成禁用状态以将滑块81和82设置成操作禁用状态。处理进行到步骤S50。

在步骤S50中，输入/输出控制单元36将用于代理B的滑块81的激活设置成启用状态以设置操作启用状态。处理进行到步骤S50。

如上所述，提供图13中的C处的显示，从而允许用户认识到代理B的学习已失败并且需要调整用于代理B的报酬的参数。用户还可以操作用于代理B的滑块82以调整用于代理B的报酬的参数。

在步骤S51中，输入/输出控制单元36确定用户I/F 40是否已被操作成重新开始学习。在确定用户I/F 40未被操作成重新开始学习的情况下，处理返回到步骤S51。

此外，在步骤S51中，在确定用户I/F 40已被操作成重新开始学习的情况下，代理B重新开始学习，并且处理进行到图15中的步骤S61。

在图15中的步骤S61中，学习状态确定单元34基于代理A和B的报酬图的变化模式来确定代理A和B的学习状态。也就是说，在步骤S42中，学习状态确定单元34确定代理A和B的报酬图的变化模式两者是否是图12中的B处的模式p2。

在步骤S61中，在确定代理A和B的报酬图的变化模式之一不是模式p2或者确定变化模式的两者都不是模式p2的情况下，处理返回图14中的步骤S41。

此外，在步骤S61中，在确定代理A和B的报酬图的变化模式两者为模式p2的情况下，代理A和B暂停学习，并且处理进行到步骤S62。

在步骤S62中，输入/输出控制单元36在用作警告消息的可变文本中设置消息“学习已收敛。重置权重参数”，该消息指示代理A和B两者的学习已成功并且提示调整用于代理A和B的报酬的参数(权重ω_i和V_i)。

此外，在步骤S62中，输入/输出控制单元36使用户I/F 40显示在用作警告消息的可变文本中设置的消息以发出警告。处理进行到步骤S63。

在步骤S63中，输入/输出控制单元36将所有的滑块81和82的激活初始化成启用状态以将滑块81和82设置成操作启用状态。处理进行到步骤S64。

如上所述，提供图13中的B处的显示，从而允许用户认识到代理A和B的学习已收敛并且可以根据需要调整用于代理A和B的报酬的参数。用户还可以操作用于代理A的滑块81以调整用于代理A的报酬的参数，而操作用于代理B的滑块82以调整用于代理B的报酬的参数。

在步骤S64中，输入/输出控制单元36确定用户I/F 40是否已被操作成重新开始学习。在确定用户I/F 40未被操作成重新开始学习的情况下，处理返回到步骤S64。

此外，在步骤S64中，在确定用户I/F 40已被操作成重新开始学习的情况下，代理A和B重新开始学习。处理从步骤S64返回到图14中的步骤S41，并且重复类似的处理。

在本实施方式的描述中，采用自动驾驶车辆的代理作为代理A，采用诸如自行车、人类等的另一车辆的代理作为代理B，并且将本技术应用于涉及用于自动驾驶的行动决策规则的学习的自动驾驶领域。然而，本技术也适用于除自动驾驶领域之外的各种领域的行动决策规则的学习。

也就是说，本技术适用于疫苗研制、农产品品种改良等领域。

例如，在疫苗研制领域，采用疫苗的代理作为代理A，并且采用病毒的代理作为代理B。这允许学习用于有效对抗病毒的疫苗的行动决策规则。

此外，例如，在农产品品种改良领域中，采用特定品种(新品种)的农产品的代理作为代理A，并且采用害虫的代理作为代理B。这允许学习用于对抗害虫的品种的行动决策规则。

<应用本技术的计算机的描述>

接下来，上述一系列的处理可以通过硬件或通过软件来执行。在通过软件执行的一系列处理的情况下，在该软件中包括的程序被安装在通用计算机等中。

图16是示出安装有执行上述一系列处理的程序的计算机的实施方式的配置的示例的框图。

程序可以预先记录在用作内置到计算机中的记录介质的硬盘105或ROM 103中。

替选地，可以将该程序存储(记录)在可移除记录介质111中。这样的可移除记录介质111可以作为所谓的封装软件来提供。此处，可移除记录介质111是，例如软盘、CD-ROM(致密盘只读存储器)、MO(磁光)盘、DVD(数字通用盘)、磁盘和半导体存储器。

程序可以从以上所述的可移除记录介质111安装到计算机中或者经由通信网络或广播网络下载到计算机中，并且安装到内置硬盘105中。也就是说，例如，程序可以通过无线电从下载站点经由用于数字卫星广播的人造卫星传送到计算机，或者通过电线经由诸如LAN(局域网)和因特网的网络传送到计算机。

计算机包括内置CPU(中央处理单元)102，并且CPU 102经由总线101连接至输入/输出接口110。

当经由输入/输出接口110接收用户通过例如通过输入单元107的操作给出的指令时，CPU 102根据指令执行在ROM(只读存储器)103中存储的程序。替选地，CPU 102将在硬盘105中存储的程序加载到RAM(随机存取存储器)104中并且在RAM 104中执行程序。

因此，CPU 102根据上述流程图执行处理或者使用上述框图中的配置执行处理。CPU 102根据需要使处理结果经由输入/输出接口110从输出单元106输出，或者从通信单元108发送处理结果，并且此外，例如将处理结果记录在硬盘105中。

输入单元107包括键盘、鼠标和麦克风等。输出单元106包括LCD(液晶显示器)、扬声器等。

这里，在本说明书中，由计算机根据程序执行的处理不一定需要以流程图中描述的顺序按时间顺序来执行。也就是说，由计算机根据程序执行的处理包括并行或分离执行的处理(例如，并行处理或基于对象的处理)。

此外，程序可以通过一个计算机(处理器)处理或者由多个计算机以分布式方式处理。此外，程序可以被传送到远程计算机上执行。

此外，在本说明书中，系统是指多个部件(装置、模块(部件)等)的集合，而不管所有部件是否位于相同的壳体中。因此，系统的示例包括容置在独立壳体中并且经由网络连接在一起的多个装置，以及具有容置在一个壳体中的多个模块的一个装置。

本技术的实施方式不限于上述实施方式，并且可以在不偏离本技术范围的情况下对实施方式进行许多改变。

例如，本技术可以被配置为云计算，在云计算中一个功能经由网络由多个装置进行共享，并且在云计算中装置在执行过程中进行协作。

此外，使用上述流程图描述的步骤可以由一个装置执行或者由多个装置共享来执行。

此外，在一个步骤包括多个处理的情况下，一个步骤中包括的多个处理可以由一个装置执行或者由多个装置共享来执行。

本文在描述的效果仅是示例性的而不受限制，并且可以产生其他效果。

本技术可以按照以下描述进行配置。

<1>一种信息处理装置，包括：

模拟器环境生成单元，生成模拟真实世界的模拟器环境；以及

报酬提供单元，针对在模拟器环境中采取行动并且根据用于行动的报酬学习行动决策规则的第一代理和第二代理，报酬提供单元

向第一代理提供根据规定的报酬定义的报酬，以及

向第二代理提供根据与规定的报酬定义相反的相反报酬定义的报酬，相反报酬定义在第二代理采取行动而引起用于第一代理的报酬减少的状况的情况下使所得到的报酬增加，并且在第二代理采取行动而增加用于第一代理的报酬的情况下使所得到的报酬减少。

<2>根据<1>所述的信息处理装置，其中，报酬提供单元根据用户的操作来调整用于报酬的参数。

<3>根据<2>所述的信息处理装置，还包括：

显示控制单元，执行使调整用于报酬的参数的GUI(图形用户界面)显示的显示控制。

<4>根据<2>或<3>所述的信息处理装置，还包括：

发出控制单元，根据第一代理和第二代理的学习状态来控制警告的发出，所述警告提示调整用于报酬的参数。

<5>根据<4>所述的信息处理装置，还包括：

确定单元，根据报酬的变化模式来确定学习状态。

<6>根据<4>或<5>所述的信息处理装置，其中，在第一代理或第二代理学习失败的情况下以及在第一代理和第二代理学习成功的情况下发出警告。

<7>一种信息处理方法，包括：

生成模拟真实世界的模拟器环境；以及

针对在模拟器环境中采取行动并且根据用于行动的报酬来学习行动决策规则的第一代理和第二代理，

向第一代理提供根据规定的报酬定义的报酬，以及

参考标记列表

10代理、11实验DB、12学习单元、13行动决定单元、30模拟器、31模拟器环境提供单元、32模拟器环境生成单元、33报酬提供单元、34学习状态确定单元、36输入/输出控制单元、40用户I/F、61行动规划单元、62周围环境信息获取单元、63数据获取单元、64数据库、65学习单元、66行动决定单元、67行动控制单元、101总线、102 CPU、103 ROM、104 RAM、105硬盘、106输出单元、107输入单元、108通信单元、109驱动器、110输入/输出接口、111可移除记录介质。

Claims

1.一种信息处理装置，包括：

报酬提供单元，针对在所述模拟器环境中采取行动并且根据针对所述行动的报酬来学习行动决策规则的第一代理和第二代理，所述报酬提供单元

向所述第一代理提供根据规定的报酬定义的报酬，并且

向所述第二代理提供根据与所述规定的报酬定义相反的相反报酬定义的报酬，所述相反报酬定义在所述第二代理采取行动而引起用于所述第一代理的报酬减少的状况的情况下使所得到的报酬增加，并且在所述第二代理采取行动而增加用于所述第一代理的报酬的情况下使所得到的报酬减少。

2.根据权利要求1所述的信息处理装置，其中，所述报酬提供单元根据用户的操作来调整用于所述报酬的参数。

3.根据权利要求2所述的信息处理装置，还包括：

显示控制单元，执行使调整用于所述报酬的参数的GUI(图形用户界面)显示的显示控制。

4.根据权利要求2所述的信息处理装置，还包括：

发出控制单元，根据所述第一代理和所述第二代理的学习状态来控制警告的发出，所述警告提示调整用于所述报酬的参数。

5.根据权利要求4所述的信息处理装置，还包括：

确定单元，根据所述报酬的变化模式来确定所述学习状态。

6.根据权利要求4所述的信息处理装置，其中，在所述第一代理或所述第二代理学习失败的情况下以及在所述第一代理和所述第二代理学习成功的情况下发出所述警告。

7.一种信息处理方法，包括：

生成模拟真实世界的模拟器环境；以及

针对在所述模拟器环境中采取行动并且根据针对所述行动的报酬来学习行动决策规则的第一代理和第二代理，

向所述第一代理提供根据规定的报酬定义的报酬，并且