CN111971149A

CN111971149A - 记录介质、信息处理设备和信息处理方法

Info

Publication number: CN111971149A
Application number: CN201980024874.1A
Authority: CN
Inventors: 大塚纯二; 児岛环
Original assignee: Sony Corp; Sony Electronics Inc
Current assignee: Sony Corp; Sony Electronics Inc
Priority date: 2018-04-17
Filing date: 2019-03-12
Publication date: 2020-11-20
Also published as: WO2019202878A1; US20190314983A1; US20210107143A1

Abstract

提供了一种其上记录有程序的记录介质，所述程序使计算机用作：学习部，被配置为学习行动模型，用于基于指示第一环境的环境信息和指示当行动主体在第一环境中采取行动时的成本的行动成本信息，来决定行动主体的行动；以及决定部，被配置为基于环境信息和行动模型，来决定行动主体在第一环境中的行动。

Description

记录介质、信息处理设备和信息处理方法

相关申请的交叉引用

本申请要求2018年4月17日的临时申请号US 62/658783的优先权的权益，其全部内容通过引用结合于此。本申请要求2018年7月26日的申请号US 16/046485的优先权的权益，其全部内容通过引用结合于此。

技术领域

本公开涉及记录介质、信息处理设备和信息处理方法。

背景技术

近年来，已经开发了自主地采取行动的各种行动主体，例如，机器狗和无人机。例如，基于周围环境做出行动主体的行动决策。从抑制行动主体的功耗等的角度来看，期望一种使得行动决策更合适的技术。

例如，下面列出的PTL 1公开了与车辆轮胎的旋转控制相关的技术，并且执行反馈控制，以减小防止发生打滑而相对于光滑轮胎预先测量的扭矩值和行驶时实际测量的扭矩值之间的差值。

引文列表

专利文献

PTL 1：US 2015/0112508A

发明内容

技术问题

然而，在上面列出的PTL 1中公开的技术难以应用于除了轮胎的旋转控制之外的控制，而且，这是在实际行驶之后执行的反馈控制。因此，原则上难以在行驶前预测扭矩值，并执行旋转控制。因此，上面列出的PTL1中公开的技术难以在未知环境中对轮胎适当地执行旋转控制。

于是，本公开提供了允许行动主体更适当地决定行动的机制。

问题解决方案

根据本公开的实施方式，提供了一种记录有程序的记录介质，该程序使计算机用作：学习部，被配置为学习行动模型，用于基于指示第一环境的环境信息和指示当行动主体在第一环境中采取行动时的成本的行动成本信息，来决定行动主体的行动；以及决定部，其被配置为基于环境信息和行动模型，来决定行动主体在第一环境中的行动。

此外，根据本公开的实施方式，提供了一种信息处理设备，包括：学习部，其被配置为学习行动模型，用于基于指示第一环境的环境信息和指示当行动主体在第一环境中采取行动时的成本的行动成本信息，来决定行动主体的行动；以及决定部，其被配置为基于环境信息和行动模型，来决定行动主体在第一环境中的行动。

此外，根据本公开的实施方式，提供了一种由处理器执行的信息处理方法，所述信息处理方法包括：学习行动模型，用于基于指示第一环境的环境信息和指示当行动主体在第一环境中采取行动时的成本的行动成本信息，来决定行动主体的行动；并且基于环境信息和行动模型，来决定行动主体在第一环境中的行动。

发明的有益效果

如上所述，根据本公开的实施方式，提供了一种允许行动主体更适当地决定行动的机制。注意，上述效果不一定是限制性的。利用或代替上述效果，可以实现本说明书中描述的任何一种效果或可以从本说明书中理解的其他效果。

附图说明

[图1]图1是用于描述所提出的技术的概述的示图；

[图2]图2是示出根据本公开的实施方式的自主移动对象的硬件配置示例的示图；

[图3]图3是示出根据本实施方式的自主移动对象的功能配置示例的框图；

[图4]图4是示出根据本实施方式的用户终端的功能配置示例的框图；

[图5]图5是用于描述根据本实施方式的参考测量信息的获取示例的示图；

[图6]图6是用于描述根据本实施方式的评估值的计算示例的示图；

[图7]图7是用于描述根据本实施方式的评估值的计算示例的示图；

[图8]图8是用于描述根据本实施方式的预测模型的示例的示图；

[图9]图9是用于描述根据本实施方式的预测模型的学习示例的示图；

[图10]图10是用于描述根据本实施方式的自主移动对象的行动决定示例的示图；

[图11]图11是用于描述根据本实施方式的自主移动对象的行动决定示例的示图；

[图12]图12是用于描述根据本实施方式的自主移动对象的行动决定示例的示图；

[图13]图13是用于描述根据本实施方式的自主移动对象的评估值的预测示例的示图；

[图14]图14是用于描述根据本实施方式的自主移动对象的行动模型的学习示例的示图；

[图15]图15是示出根据本实施方式的由用户终端显示的UI画面的示例的示图；

[图16]图16是示出根据本实施方式的由自主移动对象执行的学习处理的流程的示例的流程图；以及

[图17]图17是示出根据本实施方式的由自主移动对象执行的行动决定处理的流程的示例的流程图。

具体实施方式

在下文中，将参考附图详细描述本公开的一个或多个优选实施方式。注意，在本说明书和附图中，具有基本相同的功能和结构的结构元件用相同的附图标记表示，并且省略了这些结构元件的重复说明。

注意，将按照以下顺序进行描述。

1.介绍

2.配置示例

2.1.自主移动对象的硬件配置示例

2.2.自主移动对象的功能配置示例

2.3.用户终端的功能配置示例

3.技术特征

3.1.测量信息的获取

3.2.评估值的实际测量

3.3.评估值的预测

3.4.行动决定

3.5.行动模型的学习

3.6.用户请求的反映

3.7.更新触发器

3.8.处理流程

3.9.补充信息

4.结论

<<1.介绍>>

图1是用于描述所提出的技术的概述的示图。在图1所示的空间30中，存在自主移动对象10和操作用户终端20的用户。自主移动对象10是行动主体的示例。作为行动的示例，自主移动对象10在地板上移动。在此处，移动是包括旋转等的概念，除了位置改变之外，还改变移动方向。除了图1所示的四足机器狗之外，自主移动对象10可以实现为任何设备，例如，两足人形机器人、车辆或飞行物体。用户终端20基于用户操作来控制自主移动对象10的行动。例如，用户终端20执行关于自主移动对象10的行动决定的设置。除了图1所示的智能手机之外，用户终端20可以实现为任何设备，例如，平板终端、个人计算机(PC)或可穿戴装置。

自主移动对象10的行动容易程度取决于环境。在难以移动的环境中，移动需要时间，首先不可能移动，或者会消耗很多的功率。例如，空间30的地板是木地板33，并且易于移动。然而，在包括电缆31的区域或地毯32的区域中，难以移动。在木地板33的区域中，每单位时间的移动量大，并且耗电量小。另一方面，在包括电缆31的区域或地毯32的区域中，每单位时间的移动量小，并且耗电量大。

在此处，如果能够预先预测行动容易程度，则能够实现有效的移动。另一方面，很难预先定义所有各种真实环境(地板和地毯的类型、障碍物的图案等)。此外，行动容易程度不仅受到环境的影响，还受到自主移动对象10随时间的退化、行动方法的变化等的影响。

然后，本公开提出了允许自主移动对象10甚至在未知环境中适当地决定行动的技术。根据本文提出的技术的实施方式，自主移动对象10能够甚至在未知环境中预先预测行动容易程度，选择容易采取行动的路线，并且移动。

<<2.配置示例>>

<2.1.自主移动对象的硬件配置示例>

接下来，将描述根据本公开的实施方式的自主移动对象10的硬件配置示例。注意，作为示例，下面描述了自主移动对象10是四足机器狗的情况。

图2是示出根据本公开的实施方式的自主移动对象10的硬件配置示例的示图。如图2所示，自主移动对象10是四足机器狗，包括头部、躯干、四条腿和尾巴。此外，自主移动对象10在头部包括两个显示器510。

此外，自主移动对象10包括各种传感器。自主移动对象10包括例如麦克风515、相机520、飞行时间(ToF)传感器525、运动传感器530、位置敏感探测器(PSD)传感器535、触摸传感器540、照度传感器545、脚底按钮550和惯性传感器555。

(麦克风515)

麦克风515具有拾取周围声音的功能。上述声音的示例包括用户语音和周围环境声音。自主移动对象10可以包括例如头上的四个麦克风。包括多个麦克风515使得能够以高灵敏度拾取环境中产生的声音，并定位声源。

(相机520)

相机520具有对用户和周围环境拍摄的功能。自主移动对象10可以包括例如位于鼻尖和腰部的两个广角相机。在这种情况下，设置在鼻尖上的广角相机拍摄对应于自主移动对象10的前视野(即，狗的视野)的图像，并且腰部上的广角相机拍摄围绕向上方向的周围区域的图像。自主移动对象10可以例如基于由设置在腰部的广角相机拍摄的图像来提取天花板的特征点等，并且实现同时定位和映射(SLAM)。

(ToF传感器525)

ToF传感器525具有检测到存在于头部前方的物体的距离的功能。ToF传感器525设置在头前端。ToF传感器525允许精确地检测到各种物体的距离，并且使得能够实现与相对于包括用户在内的目标、障碍物等的相对位置对应的操作。

(运动传感器530)

运动传感器530具有感测用户、用户饲养的宠物等的位置的功能。运动传感器530设置在例如胸部上。运动传感器530感测前方的移动物体，从而使得可以在移动物体上实现各种操作，例如，对应于诸如兴趣、恐惧和惊讶等情绪的操作。

(PSD传感器535)

PSD传感器535具有获取自主移动对象10前方的地板状况的功能。PSD传感器535设置在例如胸部。PSD传感器535可以高精度地检测到在自主移动对象10前面存在于地板上的物体的距离，并且实现与相对于物体的相对位置对应的操作。

(触摸传感器540)

触摸传感器540具有感测用户接触的功能。触摸传感器540设置在例如用户可能触摸自主移动对象10的位置，例如，头顶、下巴和后背。触摸传感器540可以是例如静电电容或压敏触摸传感器。触摸传感器540允许感测用户的接触动作，例如，触摸、轻拍、击打和推进，并且使得能够执行对应于接触动作的操作。

(照度传感器545)

照度传感器545检测自主移动对象10所处的空间的照度。照度传感器545可以设置在例如头部后面的尾部的基部等处。照度传感器545检测环境的亮度，并且使得能够执行对应于亮度的操作。

(脚底按钮550)

脚底按钮550具有感测自主移动对象10的腿的底部是否与地板接触的功能。因此，脚底按钮550设置在对应于四条腿的脚掌垫的相应位置。脚底按钮550允许感测自主移动对象10与地板的接触或不接触，并且使得能够例如掌握用户等举起自主移动对象10。

(惯性传感器555)

惯性传感器555是六轴传感器，其检测头部或躯干的物理量，例如，速度、加速度和旋转。即，惯性传感器555检测X轴、Y轴和Z轴的加速度和角速度。各惯性传感器555设置在头部和躯干处。惯性传感器555以高精度检测自主移动对象10的头部和躯干的运动，并且使得能够实现对应于情形的操作控制。

上面描述了根据本公开的实施方式的自主移动对象10中包括的传感器的示例。注意，上面参考图2描述的组件仅仅是示例。可以包括在自主移动对象10中的传感器的配置不限于该示例。除了上述组件之外，自主移动对象10还可以包括例如各种通信设备，包括结构光相机、超声波传感器、温度传感器、地磁传感器和全球导航卫星系统(GNSS)信号接收器等。可以根据规格和用途灵活地修改自主移动对象10中包括的传感器的配置。

<2.2.自主移动对象的功能配置示例>

图3是示出根据本实施方式的自主移动对象10的功能配置示例的框图。如图3所示，自主移动对象10包括输入部110、通信部120、驱动部130、存储部140和控制部150。

(输入部110)

输入部110具有收集与自主移动对象10的周围环境相关的各种信息的功能。例如，自主移动对象10收集与周围环境相关的图像信息以及传感器信息，例如，用户发出的声音。因此，输入部110包括图1所示的各种传感器设备。此外，输入部110可以从除了自主移动对象10中包括的传感器设备之外的传感器设备(例如，环境安装传感器)收集传感器信息。

(通信部120)

通信部120具有向另一设备发送信息和从另一设备接收信息的功能。通信部120执行符合任何有线/无线通信标准的通信，有线/无线通信标准例如局域网(LAN)、无线LAN、Wi-Fi(注册商标)和蓝牙(注册商标)。例如，通信部120向用户终端20发送信息并且从用户终端20接收信息。

(驱动部130)

驱动部130具有基于控制部150的控制弯曲和拉伸自主移动对象10的多个关节部分的功能。更具体地，驱动部130驱动包括在每个关节部分中的致动器，以实现自主移动对象10的各种行动，例如，移动或旋转。

(存储部140)

存储部140具有临时或永久存储用于操作自主移动对象10的信息的功能。例如，存储部140存储由输入部110收集的传感器信息和控制部150的处理结果。此外，存储部140可以存储指示自主移动对象10已经采取或将采取的行动的信息。此外，存储部140可以存储指示自主移动对象10的状态的信息(例如，位置信息等)。存储部140例如由硬盘驱动器(HDD)、固态存储器(例如，闪存)、其中安装有固定存储器的存储卡、光盘、磁光盘、全息存储器等实现。

(控制部150)

控制部150具有控制自主移动对象10的整体操作的功能。控制部150例如由诸如中央处理单元(CPU)或微处理器等电子电路实现。控制部150可以包括存储要使用的程序、操作参数等的只读存储器(ROM)以及临时存储适当变化的参数等的随机存取存储器(RAM)。

如图3所示，控制部150包括决定部151、测量部152、评估部153、学习部154、生成部155和更新确定部156。

决定部151具有决定自主移动对象10的行动的功能。决定部151使用由学习部154学习的行动模型来决定行动。此时，决定部151可以将由学习部154学习的预测模型的预测结果输入到行动模型。决定部151向驱动部130输出指示所决定的行动的信息，以实现自主移动对象10的各种行动，例如，移动或旋转。决定部151的决定结果可以存储在存储部140中。

测量部152具有测量自主移动对象10采取由决定部151决定的行动所获得的结果的功能。测量部152将测量结果存储在存储部140中，或者将测量结果输出到评估部153。

评估部153具有基于测量部152的测量结果评估自主移动对象10采取行动所处的环境的行动容易度(即，移动容易度)的功能。评估部153促使评估结果存储在存储部140中。

学习部154具有控制学习处理的功能，例如决定部151使用的预测模型和行动模型。学习部154向决定部151输出指示学习结果的信息(每个模型的参数)。

生成部155具有生成用于接收关于自主移动对象10的行动决定的用户操作的UI画面的功能。生成部155基于存储在存储部140中的信息生成UI画面。例如，基于该UI画面上的用户操作，改变存储在存储部140中的信息。

更新确定部156确定是否更新预测模型、行动模型和参考测量信息。如下面描述的。

上面简单描述了控制部中包含的每个组件。下面将详细描述每个组件的详细操作。

<2.3.用户终端的功能配置示例>

图4是示出根据本实施方式的用户终端20的功能配置示例的框图。如图4所示，用户终端20包括输入部210、输出部220、通信部230、存储部240和控制部250。

(输入部210)

输入部210具有从用户接收各种信息的输入的功能。例如，输入部210接收关于自主移动对象10的行动决定的设置的输入。输入部210由触摸面板、按钮、麦克风等实现。

(输出部220)

输出部220具有向用户输出各种信息的功能。例如，输出部220输出各种UI画面。输出部220例如由显示器实现。此外，输出部220可以包括扬声器、振动元件等。

(通信部230)

通信部230具有向另一设备发送信息和从另一设备接收信息的功能。通信部230执行符合任何有线/无线通信标准的通信，有线/无线通信标准例如为局域网(LAN)、无线LAN、Wi-Fi(注册商标)和蓝牙(注册商标)。例如，通信部230向自主移动对象10发送信息并且从自主移动对象10接收信息。

(存储部240)

存储部240具有临时或永久存储用于操作用户终端20的信息的功能。例如，存储部240存储关于自主移动对象10的行动决定的设置。存储部240例如由硬盘驱动器HDD、固态存储器(例如，闪存)、其中安装有固定存储器的存储卡、光盘、磁光盘、全息存储器等实现。

(控制部250)

控制部250具有控制用户终端20的整体操作的功能。控制部250例如由电子电路(例如，CPU或微处理器)实现。控制部150可以包括存储要使用的程序、操作参数等的ROM以及临时存储适当变化的参数等的RAM。

例如，控制部250经由通信部230从自主移动对象10接收用于接收关于自主移动对象10的行动决定的设置操作的UI画面，并且促使输出部220输出UI画面。此外，控制部250从输入部210接收指示在UI画面上的用户操作的信息，并且经由通信部230将该信息发送到自主移动对象10。

<<3.技术特征>>

<3.1.测量信息的获取>

测量部152测量自主移动对象10的行动结果(下面也将称为测量信息)。测量信息是基于移动距离、移动速度、耗电量、包括移动前后的位置信息(坐标)的运动矢量(基于移动前的位置和方向的矢量)、旋转角度、角速度、振动和倾斜度中的至少任何一个的信息。注意，旋转角度可以是自主移动对象10的旋转角度或者包括在自主移动对象10中的车轮的旋转角度。角速度也是如此。振动是在移动时要测量的自主移动对象10的振动。倾斜度是自主移动对象10在移动之后的姿态，该姿态基于移动之前的姿态。测量信息本身可以包括这些类型的信息。此外，测量信息可以包括通过对这些类型的信息应用各种操作而获得的结果。例如，测量信息可以包括统计，例如，多次测量的值的平均值或中值。

测量部152测量自主移动对象10采取预定行动时的行动结果(这也将在下文中称为测量动作)，从而获取测量信息。测量动作可以是直线移动，例如，移动预定的时间、移动预定的距离、行走预定的步数或者旋转左右轮预定的次数。此外，测量动作可以是旋转行动，例如，旋转预定的时间、旋转预定的步数或者反向旋转左右轮预定的次数。

在测量动作直线移动的情况下，测量信息可以包括移动距离、移动速度、耗电量、旋转角度、角速度、指示移动的笔直程度的指数等中的至少任何一个。在测量动作是旋转行动的情况下，测量信息可以包括旋转角度、角速度、耗电量或位置位移(一次旋转之前和之后的位置位移)中的至少任何一个。测量部152获取每种类型的测量动作的测量信息。

当自主移动对象10在参考环境(对应于第二环境)中采取测量动作时，测量部152获取测量信息作为参考测量信息(对应于第二测量信息)。参考环境是作为评估行动容易度的参考的环境。期望参考环境是诸如工厂、实验室或用户房屋的没有障碍、不滑并且便于移动的地面等环境。可以在工厂装运时、自主移动对象10第一次安装在房屋中时，获取参考测量信息。

将参考图5描述参考测量信息的获取。图5是用于描述根据本实施方式的参考测量信息的获取示例的示图。如图5所示，首先，用户设置被认为容易移动的任何地方作为参考环境(步骤S11)。此处假设木地板33上的区域被设置为参考环境。然后，用户将自主移动对象10安装在用作参考环境的木地板33上(步骤S12)。接下来，用户使自主移动对象10执行测量动作(步骤S13)。在图5所示的示例中，测量动作是直线移动。自主移动对象10然后获取参考测量信息(步骤S14)。

另外，当自主移动对象10在行动环境(对应于第一环境)中采取测量动作时，测量部152获取测量信息(对应于第一测量信息)。行动环境是自主移动对象10实际采取行动(例如，接地)的环境以及用户房屋的木地板或地毯上的区域。在自主移动对象10在参考环境中采取行动的情况下，行动环境与参考环境同义。可以在任何时间获取测量信息，例如，发现尚未获取测量信息的环境的时间。

注意，测量动作不必是专用于测量的行动。例如，测量动作可以包括在正常操作中。在这种情况下，当自主移动对象10在行动环境中执行正常操作时，自动收集测量信息。

存储部140存储参考测量信息。存储的参考测量信息用于计算下述的评估值。同时，测量部152将在行动环境中获取的测量信息输出到评估部153。

<3.2.评估值的实际测量>

评估部153计算指示自主移动对象10采取行动的环境的行动容易度(即，移动容易度)的评估值(对应于行动成本信息)。通过将当自主移动对象10在参考环境中采取行动时针对自主移动对象10测量的参考测量信息与当自主移动对象10在行动环境中采取行动时针对自主移动对象10测量的测量信息进行比较，来计算评估值。行动结果之间的比较用于计算评估值，从而可以计算任何行动方法(行走/跑步)的评估值。作为示例，假设评估值是从0到1的实数值。较高的值意味着较高的行动容易度(即，更容易移动)，而较低的值意味着较低的行动容易度(即，更难移动)。毋庸置疑，评估值的范围不限于0到1的范围。较低的值可能意味着较低的行动容易度，而较高的值可能意味着较高的行动容易度。

将参考图6描述测量动作直线移动的情况下的评估值的计算示例。图6是用于描述根据本实施方式的评估值的计算示例的示图。如图6所示，行动环境是地毯32上的区域，并且假设自主移动对象10从位置P_A开始直线移动预定时间，并且经由移动轨迹W到达位置P_B。此外，根据参考测量信息，假设如果行动环境是参考环境，则从位置P_A开始直线移动预定时间，将自主移动对象10带到位置P_C。评估值可以是参考环境中的移动距离|P_AP_C|和行动环境中的移动距离|P_AP_B|之间的差值或比值。评估值也可以是参考环境中的速度和行动环境中的速度之间的差值或比值。评估值也可以是参考环境中耗电量和行动环境中耗电量之间的差值或比值。评估值也可以是参考环境中的旋转角度和行动环境中的旋转角度之间的差值或比值。评估值也可以是参考环境中的角速度和行动环境中的角速度之间的差值或比值。评估值也可以是指示移动笔直的程度以及移动的长度的指数(例如，1.0-|P_CP_B|/|P_AP_C|)。评估值也可以是矢量P_AP_C和矢量P_AP_B之间的相似度或角度。

将参考图7描述在测量动作是旋转动作的情况下评估值的计算示例。图7是用于描述根据本实施方式的评估值的计算示例的示图。如图7所示，行动环境是地毯32上的区域，并且假设自主移动对象10采取旋转动作持续预定时间，并且旋转角度是π_A。此外，根据参考测量信息，假设如果行动环境是参考环境，则自主移动对象10在预定时间内的旋转动作导致π_B的旋转角度。评估值也可以是参考环境中的旋转角度π_A和行动环境中的旋转角度π_B之间的差值或比值。评估值也可以是参考环境中的角速度和行动环境中的角速度之间的差值或比值。评估值也可以是参考环境中耗电量和行动环境中耗电量之间的差值或比值。评估值也可以是参考环境中的位置位移(预定旋转次数(例如，一次旋转)之前和之后的位置位移)和行动环境中的位置位移之间的差值或比值。

通过上述任何计算方法获得评估值。也可以获取评估值，作为通过组合由上述多种计算方法计算的多个值而获得的一个值。此外，也可以获取评估值，作为包括通过上述多种计算方法计算的多个值的值。此外，任何线性变换或非线性变换都可以应用于评估值。

每当自主移动对象10执行测量动作时，评估部153计算评估值。当获取测量信息时，评估值与测量动作的类型、测量信息和指示环境的信息(下面描述的环境信息)相关联地存储。当获取测量信息时，评估值可以进一步与位置信息相关联地存储。例如，在位置信息用于在UI画面上显示、确定是否更新预测模型和行动模型、或者输入到预测模型和行动模型中的情况下，期望与评估值相关联地存储位置信息。

<3.3.评估值的预测>

学习部154从行动环境的环境信息中学习预测评估值的预测模型。通过将行动环境的环境信息输入到预测模型中来预测评估值。这允许自主移动对象10预测甚至尚未实际测量评估值的未评估环境的评估值。即，存在两种类型的评估值：经由在行动环境中执行的测量动作实际测量的实际测量值；以及由预测模型预测的预测值。

环境信息是指示行动环境的信息。环境信息可以是由自主移动对象10感测的传感器信息，或者可以基于传感器信息生成。例如，环境信息可以是通过对行动环境成像而获得的拍摄图像、通过对拍摄图像应用处理(例如，修补)而获得的结果、或者特征量(例如，统计)。除了传感器信息之外，环境信息可以包括位置信息、行动信息(包括诸如直线移动或旋转等行动类型、行动时间等)等。

具体地，环境信息包括与移动方向(通常是自主移动对象10的前方)上的环境相关的传感器信息。环境信息可以包括通过对移动方向上的区域成像而获得的拍摄图像、移动方向的深度信息、移动方向上存在的物体的位置、指示对对象采取的行动的行动容易度的信息等。作为示例，下面假设环境信息是通过对自主移动对象10的移动方向上的区域进行成像而获得的拍摄图像。

预测模型可以无变化地输出实数值的评估值。另外，预测模型可以输出通过将实数值的评估值量化和分类为N个阶段而获得的结果。预测模型可以输出评估值的矢量。

在要输入的环境信息是图像的情况下，预测模型可以输出每个像素的评估值。在这种情况下，例如，将相同的评估值作为标签提供给所有像素，并且执行学习。此外，类似于下面描述的分割(地板检测也是分割的一个示例)与预测相结合的情况，为每个分割提供不同的标签，并且在一些情况下执行学习。例如，仅将标签提供给图像中的最大片段或特定片段，提供指示其他区域不用于学习的特殊标签，然后在某些情况下执行学习。

图8是用于描述根据本实施方式的预测模型的示例的示图。如图8所示，一旦预测模型40接收到环境信息x₀，就输出评估值c₀。类似地，一旦预测模型40接收到环境信息x₁，就输出评估值c₁。一旦预测模型40接收到环境信息x₂，就输出评估值c₂。

图9是用于描述根据本实施方式的预测模型的学习示例的示图。假设自主移动对象10在获取环境信息x₀并获取测量信息的环境中执行测量动作。环境信息x₀和测量信息临时存储在存储部140中。另外，由评估部153计算(即，实际测量)的评估值t_i也存储在存储部140中。同时，学习部154从存储部140获取环境信息x₀，并将环境信息x₀输入预测模型40，以预测评估值c_i。然后，学习部154学习预测模型，以最小化通过测量(即，实际测量)获得的评估值t_i和根据预测模型通过预测获得的评估值c_i之间的误差(以下也将称为预测误差)。即，学习部154学习预测模型，以最小化以下公式所示的预测误差L。请注意，i表示环境信息的索引。

[数学式1]

D可以是用于计算平方误差或关于评估值t回归的问题的误差的绝对值的函数。另外，D可以是用于计算关于将评估值t量化和分类的问题的交叉熵的函数。此外，作为D，可以使用可用于回归或分类的任何误差函数。

可以用任何模型构建预测模型。例如，预测模型可以用神经网络、线性回归、逻辑回归、决定树、支持矢量机、拟合至任何分布(例如，正态分布)或其组合来构建。此外，预测模型也可以被构建为与下面描述的行动模型共享参数的模型。

此外，预测模型可以是将评估值映射到环境地图(例如，安装有自主移动对象10的用户房屋的地板平面)的模型，该环境地图示出了自主移动对象10的行动范围，以供保持。在这种情况下，学习意味着累积映射到环境图的评估值。如果位置信息输入到预测模型中，实际测量评估值并将其保持在由输入的位置信息指示的位置，则输出评估值。相反，如果在由输入位置信息指示的位置处没有实际测量评估值，则诸如平滑等过滤处理应用于已经在附近实际测量的评估值，并且输出评估值。

地板检测可以与预测相结合。例如，环境信息包括通过对行动环境成像而获得的拍摄图像。仅针对拍摄图像中的自主移动对象10能够在其上采取行动的区域(例如，地板)预测评估值。关于学习，评估值可以作为标签仅提供给自主移动对象10能够在其上采取行动的区域，例如，地板，并且诸如0等常数可以提供给其他区域，以执行学习。

分割可以与预测相结合。例如，环境信息包括通过对行动环境成像而获得的拍摄图像。针对拍摄图像的每个分割的部分区域预测评估值。关于学习，可以针对行动容易度不同的每个区域来分割拍摄的图像，并且可以将评估值作为标签提供给每个片段，以执行学习。

<3.4.行动决定>

决定部151基于环境信息和行动模型来决定自主移动对象10在行动环境中的行动。例如，决定部151将行动环境的环境信息输入到行动模型中，以决定自主移动对象10在行动环境中的行动。此时，决定部151可以将评估值输入到行动模型中，或者不必将评估值输入到行动模型中。例如，在下面描述的将评估值用作奖励(reward)的强化学习中，评估值不必输入到行动模型中。

具体地，在尚未评估评估值的行动环境中，决定部151基于环境信息预测指示自主移动对象10在行动环境中采取行动时的成本的评估值。对于这样的预测，使用由学习部154学习的预测模型。然后，决定部151基于针对行动环境预测的评估值来决定自主移动对象10在行动环境中的行动。这使得即使在尚未评估评估值的行动环境中，也可以根据评估值是高还是低来决定适当的行动。另一方面，决定部151获取在已经实际测量了评估值的行动环境中的评估值，该评估值存储在存储部140中，并基于评估值决定自主移动对象10在行动环境中的行动。这使得可以在已经实际测量了评估值的行动环境中，根据实际测量的评估值是高还是低来决定适当的行动。毋庸置疑，即使在已经实际测量了评估值的行动环境中，决定部151也可以预测评估值，类似于尚未评估评估值的行动环境，并且基于预测的评估值来决定自主移动对象10在行动环境中的行动。因此，评估值和位置信息不必相互关联地存储。

决定部151决定与自主移动对象10的移动相关的至少任何参数，例如移动性、移动方向、移动速度、移动量、移动时间等。决定部151可以决定关于旋转的参数，例如，旋转角度和角速度。此外，决定部151可以决定离散参数，例如，进行n步并旋转k度，或者决定具有用于控制致动器的连续值的控制信号。

行动模型可以用任何模型来构造。例如，行动模型由诸如卷积神经网络(CNN)或递归神经网络(RNN)等神经网络构造。此外，行动模型也可以用一组if-then规则来构造。行动模型也可以是与预测模型部分共享参数(神经网络的权重)的模型。

参考图10和图11，下面描述行动决定示例，在该示例中，行动模型是一组if-then(如果-则)规则。

图10是用于描述根据本实施方式的自主移动对象10的行动决定示例的示图。如图10所示，假设自主移动对象10在原地旋转的同时对前方区域进行成像，从而获取多条环境信息x₀和x₁。决定部151将环境信息x₀输入到预测模型40中，以获取0.1作为评估值的预测值。此外，决定部151将环境信息x₁输入到预测模型40中，以获取0.9，作为评估值的预测值。由于环境信息x₁具有较高的评估值和较高的行动容易度，所以决定部151决定在获取环境信息x₁的方向上的移动。以这种方式，在存在多个选项作为移动方向的情况下，决定部151决定在具有最高行动容易度的移动方向上移动。这允许自主移动对象10选择最容易采取行动移动的环境，并抑制功耗。

图11是用于描述根据本实施方式的自主移动对象10的行动决定示例的示图。如图11所示，假设自主移动对象10对当前前方的区域进行成像，从而获取环境信息x₀。决定部151将环境信息x₀输入到预测模型40中，以获取0.1作为评估值。在这种情况下，决定部151决定没有移动，因为评估值的预测值低，即，行动容易度低。此外，决定部151可以决定另一行动，例如，图11所示的旋转。

参考图12，下面描述行动决定示例，在该示例中，行动模型是神经网络。

图12是用于描述根据本实施方式的自主移动对象10的行动决定示例的示图。如图12所示，假设自主移动对象10对当前前方的区域进行成像，从而获取环境信息x₀。决定部151将环境信息x₀输入到预测模型40中，以获取评估值c，作为评估值。决定部151将环境信息x₀和评估值c输入到行动模型42中，以获取行动a。决定部151决定行动a，作为在获取了环境信息x₀的行动环境中的行动。

分割可以与预测相结合。在这种情况下，基于对每个片段的评估值的预测来决定行动。将参考图13描述这一点。

图13是用于描述根据本实施方式的自主移动对象10的评估值的预测示例的示图。假设获取图13所示的拍摄图像x₄，作为环境信息。例如，决定部151将拍摄的图像x₄分割成放置电缆31的部分区域x₄-1、具有地毯32的部分区域x₄-2以及除木地板33之外没有其他的部分区域x₄-3。然后，决定部151将每个部分区域的图像输入到预测模型中，以预测每个部分区域的评估值。在这种情况下，部分区域x₄-3的评估值高于难以移动的其他区域的评估值，从而决定在部分区域x₄-3的方向上移动。这允许自主移动对象10在原地旋转的同时，即使不获取多条环境信息等，也能够适当地选择移动方向，如参考图10所述。注意，在学习预测每个像素的评估值的预测模型的情况下，决定部151可以将整个拍摄图像x₄输入到预测模型中，以预测每个像素的评估值。在这种情况下，决定部151可以将例如每个像素的评估值转换成每个部分区域的评估值(例如，执行统计处理，例如，对每个部分区域取平均值)，并使用其来决定行动。

<3.5.行动模型的学习>

学习部154基于行动环境的环境信息和指示自主移动对象10在行动环境中采取行动时的成本的评估值，学习行动模型，以用于决定自主移动对象10的行动。可以同时学习或者单独学习行动模型和预测模型。学习部154可以使用其中评估值用作奖励的强化学习来学习行动模型。将参考图14描述这一点。

图14是用于描述根据本实施方式的自主移动对象10的行动模型的学习示例的示图。如图14所示，在时间t，自主移动对象10执行在时间t-1决定的行动a_t和感测，以获取环境信息x_t。决定部151将环境信息x_t输入到预测模型40中，以获取评估值e_t，并将环境信息x_t和评估值e_t输入到行动模型42中，以在下一时间t+1决定行动a_t+1。此时，决定部151使用时间t的评估值e_t，作为奖励，并使用强化学习来学习行动模型42。决定部151不仅可以使用评估值e_t，还可以一起使用另一奖励，来执行强化学习。自主移动对象10重复这一系列处理。注意，评估值不必用于输入到行动模型42中。

自主移动对象10可以具有多种行动模式。行动模式的示例包括用于高速移动的高速移动模式、用于低速移动的低速移动模式、用于使移动声音最小化的低声移动模式等。学习部154针对自主移动对象10的每个行动模式执行学习。例如，学习部154学习每个行动模式的预测模型和行动模型。然后，决定部151使用对应于行动模式的预测模型和行动模型，来决定自主移动对象10的行动。这允许自主移动对象10针对每个行动模式决定适当的行动。

<3.6.用户请求的反映>

实际测量的评估值影响预测模型的学习，也影响行动的决定。例如，自主移动对象10更容易移动到高评估值的位置，并且更难移动到低评估值的位置。然而，用户可能希望移动到甚至低行动容易度的位置。相反，用户可能希望避免移动到高行动容易度的位置。期望在自主移动对象10的行动中反映用户的这种请求。

然后，生成部155生成用于接收关于自主移动对象10的行动决定的设置操作的UI画面(显示图像)。具体地，生成部155生成与环境地图上的每个位置的评估值相关联的UI画面，该环境地图示出自主移动对象10的行动范围。自主移动对象10的行动范围是自主移动对象10可以采取行动的范围。所生成的UI图像例如由用户终端20显示，并且接收用户操作，例如，改变评估值。决定部151基于根据UI图像上的用户操作输入的评估值，决定自主移动对象10在行动环境中的行动。这使得能够在自主移动对象10的行动中反映用户的请求。将参考图15描述这种UI画面。

图15是示出根据本实施方式的由用户终端20显示的UI画面的示例的示图。图15所示的UI画面50示出了指示在安装有自主移动对象10的用户房屋的地板平面中的每个位置实际测量的评估值的信息在该位置上叠加并显示。例如，用颜色、亮度的上升和下降等来表示指示评估值的信息。在图15所示的示例中，如图例52所示，用阴影的类型和密度来表示指示评估值的信息。区域53具有低评估值(即，低行动容易度)，区域54具有高评估值(即，高行动容易度)。

用户可以像画图工具一样使用UI来修正评估值。在图15所示的示例中，用户向区域56输入高评估值。输入的评估值与区域56的位置信息相关联地存储在存储部140中。然后，自主移动对象10通过假设对应于区域56的位置的评估值为高来决定行动。因此，更容易移动到区域56的位置。以这种方式，用户能够通过将高评估值输入到推荐的路线移动中，并且相反地将低评估值输入到不允许进入的区域中，来控制自主移动对象10的移动趋势。

在UI画面50中，可以与获取环境信息的位置相关联地显示环境信息。例如，与获取环境信息55的位置相关联地显示环境信息55，并且还示出该位置具有0.1的评估值。另外，与获取环境信息57的位置相关联地显示环境信息57。环境信息57是包括儿童的拍摄图像。基于所显示的环境信息57，用户可以将高评估值输入到具有孩子的区域，使得自主移动对象10更容易移动到具有孩子的区域。这允许例如自主移动对象10拍摄孩子的大量照片。

在UI画面50中，可以为针对自主移动对象10的每个行动模式显示评估值。

注意，也可以在UI画面50上定制评估值的计算方法。

<3.7.更新触发器>

自主移动对象10(例如，更新确定部156)确定是否需要更新参考测量信息和/或预测模型。

例如，当环境改变时，更新预测模型。环境改变的时间是自主移动对象10安装在新房间中的时间、地毯改变的时间、放置障碍物的时间等。在这种情况下，评估值的预测误差在未知环境(新放置地毯的地方)中可能很大。同时，评估值的预测误差在已知环境(已经实际测量评估值的地方)中保持较小。在这种情况下，只有预测模型需要更新。

例如，当自主移动对象10的行为改变时，更新参考测量信息和预测模型。这是因为，一旦自主移动对象10的行为改变，不仅在未知环境中，而且在已知环境中，评估值的预测误差也会很大。自主移动对象10的行为是自主移动对象10的实际行动(由驱动部130驱动)。当由决定部151决定的行动和通过驱动致动器而实现的实际行动之间的关系改变时，更新参考测量信息和预测模型。例如，由于自主移动对象10随时间的退化、版本升级或根据学习更新原始操作等，来改变自主移动对象10的行为。注意，原始操作与测量动作直接相关，例如，直线移动(行走)和转弯。

在更新确定部156确定必须更新参考测量信息的情况下，测量部152再次测量参考测量信息。例如，更新确定部156使得自主移动对象10或用户终端20视觉地或听觉地输出指示用户在参考环境中安装自主移动对象10的信息。一旦自主移动对象10随后安装在参考环境中，测量部152测量参考测量信息。然后，存储部140存储新测量的参考测量信息。

在更新确定部156确定必须更新预测模型的情况下，学习部154更新预测模型。例如，学习部154暂时丢弃在更新之前使用的学习数据，并且新累积用于学习的学习数据。

下面详细描述更新目标的确定示例。

-使用用户交互的示例

更新确定部156基于通过测量获得的评估值和根据预测模型通过预测获得的评估值之间的误差(即，预测误差)，控制是否更新预测模型。具体地，更新确定部156计算各种行动环境中的预测误差，并使存储部140存储预测误差。然后，更新确定部156计算统计量，例如，存储部140中累积的多个预测误差的平均值、中值、最大值或最小值，并在计算的统计量和阈值之间进行比较等等，以确定是否必须更新预测模型。例如，在统计量大于阈值的情况下，更新确定部156确定更新预测模型。在统计量小于阈值的情况下，更新确定部156确定不更新预测模型。

基于用于计算评估值的参考测量信息和参考环境中新测量的测量信息(对应于第三测量信息)之间的误差，更新确定部156确定是否更新用于计算评估值的参考测量信息。在确定更新预测模型的情况下，更新确定部156可以确定是否更新参考测量信息。具体地，在确定应当更新预测模型的情况下，更新确定部156使得自主移动对象10或用户终端20视觉地或听觉地输出指示用户在参考环境中安装自主移动对象10的信息。一旦自主移动对象10安装在参考环境中，测量部152测量参考环境中的测量信息。然后，更新确定部156计算用于计算评估值的参考测量信息和新测量的测量信息之间的误差，并基于该误差确定是否需要更新。例如，在误差大于阈值的情况下，更新确定部156确定用在参考环境中新测量的测量信息替换参考测量信息。在这种情况下，更新预测模型和参考测量信息。相反，在误差小于阈值的情况下，更新确定部156确定不更新参考测量信息。在这种情况下，只更新预测模型。

-使用额外信息的示例

关于是否需要更新预测模型的确定类似于使用用户交互的示例的确定。

在已知环境中，更新确定部15基于通过测量获得的评估值和根据预测模型通过预测获得的评估值之间的误差(即，预测误差)，确定是否更新参考测量信息。例如，在预测误差大于阈值的情况下，更新确定部156确定更新参考测量信息。在这种情况下，更新预测模型和参考测量信息。相反，在预测误差小于阈值的情况下，更新确定部156确定不更新参考测量信息。在这种情况下，只更新预测模型。注意，为了确定是否需要更新预测模型而计算的预测误差可以用作确定所基于的预测误差，或者在确定更新预测模型的情况下，可以新计算预测误差。

在此处，已知的行动环境是已经测量了评估值的行动环境。可以存储用于学习预测模型的评估值被计算出的参考环境或行动环境的位置信息，并且可以基于存储的位置信息来确定其是否是已知的行动环境。另外，可以存储用于学习预测模型的参考环境的环境信息或行动环境的环境信息，并且可以基于与存储的环境信息的相似性，来确定是否是已知的行动环境。

注意，在难以确定已知环境是否是未知环境的情况下，每当确定更新预测模型时，更新确定部156可以确定更新参考测量信息。

也可以根据学习更新行动模型。然而，即使更新行动模型，也不是必须更新参考测量信息或预测模型。例如，在通过更新行动模型来单独改变行动策略或时间表(比较复杂的行动)的情况下，不必更新参考测量信息和预测模型。另一方面，当自主移动对象10的行为改变时，期望更新行动模型、参考测量信息和预测模型。此时，行动模型、参考测量信息和预测模型可以一次更新，或者可交替地更新。例如，可以重复更新，直到收敛。在自主移动对象10存储参考环境的位置的情况下，可以自动重复更新这些。

<3.8.处理流程>

参考图16和图17，下面描述自主移动对象10执行的处理流程的示例。

-学习处理

图16是示出根据本实施方式的由自主移动对象10执行的学习处理的流程的示例的流程图。如图16所示，首先，自主移动对象10收集行动环境中的环境信息、测量信息和评估值(步骤S102)。例如，测量部152获取行动环境中的测量信息，并且评估部153基于所获取的测量信息计算行动环境的评估值。然后，存储部140将由输入部110在行动环境中获取的测量信息、评估值和环境信息彼此相关联地存储。自主移动对象10在各种行动环境中重复执行这一系列处理。然后，学习部154基于这些种类的收集信息学习预测模型(步骤S104)，然后学习行动模型(步骤S106)。

-行动决定处理

图17是示出根据本实施方式的由自主移动对象10执行的行动决定处理的流程的示例的流程图。如图17所示，首先，输入部110获取行动环境的环境信息(步骤S202)。然后，决定部151将行动环境的环境信息输入到预测模型中，以计算行动环境的评估值(步骤S204)。接下来，决定部151将预测评估值输入到行动模型中，以决定行动环境中的行动(步骤S206)。然后，决定部151将决定内容输出到驱动部130，以促使自主移动对象10执行所决定的行动(步骤S208)。

<3.9.补充信息>

自主移动对象10可以将指示行动容易程度的评估值与除了执行学习、决定行动等之外的评估值进行组合。例如，决定部151可以进一步基于根据通过对行动环境成像获得的拍摄图像的对象识别结果或根据在行动环境中拾取的声音的语音识别结果中的至少任何一个，来决定自主移动对象10在行动环境中的行动。基于对象识别结果，决定部151避免移动到具有大量未知对象的环境，并且优先决定移动到具有大量已知对象的环境。此外，基于用户说“好”或“不”的语音识别结果，决定部151避免移动到用户说“不”的环境，并且优先决定移动到用户说“好”的环境。

毋庸置疑，对象识别结果和语音识别结果可以输入到预测模型中。换言之，对象识别结果和语音识别结果可以用于根据行动模型和根据预测模型的预测决定行动，或者用于学习行动模型和预测模型。此外，对象识别结果和语音识别结果可以转换成数值，并且被视为与指示行动容易度的评估值不同的第二评估值。第二评估值可以例如存储在存储部140中或者显示在UI画面中。

<<4.结论>>

参考图1至图17，上面详细描述了本公开的实施方式。如上所述，根据本实施方式的自主移动对象10学习行动模型，用于基于行动环境的环境信息和指示当自主移动对象10在行动环境中采取行动时的成本的评估值，来决定自主移动对象10的行动。然后，自主移动对象10基于行动环境的环境信息和所学习的行动模型来决定自主移动对象10在行动环境中的行动。当学习行动模型时，自主移动对象10可以使用该行动模型来决定行动。因此，自主移动对象10不仅可以在已知环境中而且可以在未知环境中适当地决定行动，同时将行动的结果反馈给行动模型。此外，自主移动对象10可以根据自主移动对象10随时间的退化、行动方法的变化等来更新行动模型。因此，即使在发生这些事件之后，也能够适当地决定行动。

通常，自主移动对象10根据预测模型基于评估值的预测结果，来决定移动高行动容易度的位置的行动。这允许自主移动对象10抑制功耗。

本领域技术人员应该理解，在所附权利要求或其等同物的范围内，可以根据设计要求和其他因素进行各种修改、组合、子组合和变更。

例如，在上述实施方式中，行动主体是在地板上自主移动的自主移动对象。然而，本技术不限于这样的示例。例如，行动主体可以是飞行物体(例如，无人机)或者在虚拟空间中采取行动的虚拟行动主体。此外，自主移动对象的移动不仅可以是二维移动，例如，地板等，还可以是包括高度的三维移动。

本文描述的每个设备可以被实现为单个设备，或者其一部分或全部可以被实现为不同的设备。例如，在图3所示的自主移动对象10中，学习部154可以包括在经由网络等连接到自主移动对象10的设备(例如，服务器)中。在这种情况下，当自主移动对象10连接到网络时，基于向服务器报告的信息，来学习预测模型和行动模型。还可以基于由多个自主移动对象10获取的信息来学习预测模型和行动模型。在这种情况下，可以提高学习效率。此外，除了学习部154之外，决定部151、测量部152、评估部153、生成部155和更新确定部156中的至少任何一种也可以包括在经由网络等连接到自主移动对象10的设备(例如，服务器)中。此外，具有控制部150的功能的信息处理设备可以可附接设置到自主移动对象10。

注意，本文描述的每个设备的一系列处理可以通过软件、硬件以及软件和硬件的组合中的任何一种来实现。包括在软件中的程序预先存储在例如设置在每个设备内部或外部的记录介质(非暂时介质)中。然后，例如，当由计算机执行时，每个程序由RAM读取，并由处理器(例如，CPU)执行。上述记录介质的示例包括磁盘、光盘、磁光盘、闪存等。此外，也可以经由网络分发上述计算机程序，例如，不使用记录介质。

另外，不需要以图示的顺序执行在本说明书中用流程图和序列图描述的处理。可以并行执行一些处理步骤。此外，可以采用额外的处理步骤，并且可以省略一些处理步骤。

此外，本说明书中描述的效果仅仅是说明性的或示例性的效果，而不是限制性的。即，利用或代替上述效果，根据本公开的技术可以实现本领域技术人员从本说明书的描述中清楚的其他效果。

另外，也可以如下配置本技术。

(1)一种其上记录有程序的记录介质，该程序使计算机用作：

学习部，其被配置为学习行动模型，用于基于指示第一环境的环境信息和指示当行动主体在第一环境中采取行动时的成本的行动成本信息，来决定行动主体的行动；以及

决定部，其被配置为基于环境信息和行动模型，来决定行动主体在第一环境中的行动。

(2)根据(1)所述的记录介质，其中，

所述决定部基于环境信息预测行动成本信息，所述行动成本信息指示当行动主体在第一环境中采取行动时的成本。

(3)根据(2)所述的记录介质，其中，

所述学习部从环境信息中学习用于预测行动成本信息的预测模型，并且

通过将环境信息输入到预测模型中，来预测行动成本信息。

(4)根据(3)所述的记录介质，其中，

所述环境信息包括通过对所述第一环境成像而获得的拍摄图像，并且

针对拍摄图像的每个分割的部分区域预测行动成本信息。

(5)根据(3)或(4)所述的记录介质，其中，

通过将当行动主体在第一环境中采取行动时针对行动主体测量的第一测量信息与当行动主体在第二环境中采取行动时针对行动主体测量的第二测量信息进行比较，来计算行动成本信息。

(6)根据(5)所述的记录介质，其中，

所述学习部学习预测模型，以最小化通过测量获得的行动成本信息和根据预测模型通过预测获得的行动成本信息之间的误差。

(7)根据(5)或(6)所述的记录介质，其中，

所述第一和第二测量信息是基于移动距离、移动速度、耗电量、包括移动前后的坐标的运动矢量、旋转角度、角速度、振动或倾斜度中的至少任何一项的信息。

(8)根据(5)至(7)中任一项所述的记录介质，所述记录介质上记录有程序，所述程序使所述计算机进一步用作：

更新确定部，其被配置为基于通过测量获得的行动成本信息和根据预测模型通过预测获得的行动成本信息之间的误差，来确定是否更新预测模型。

(9)根据(8)所述的记录介质，其中，

所述更新确定部基于用于计算行动成本信息的第二测量信息和在第二环境中新测量的第三测量信息之间的误差，确定是否更新第二测量信息。

(10)根据(8)或(9)所述的记录介质，其中，

更新确定部基于通过测量获得的行动成本信息和根据预测模型通过预测获得的行动成本信息之间的误差，确定是否更新第二测量信息。

(11)根据(2)至(10)中任一项所述的记录介质，其中，

所述决定部基于预测的行动成本信息来决定行动主体在第一环境中的行动。

(12)根据(1)至(11)中任一项所述的记录介质，所述记录介质上记录有程序，所述程序使所述计算机进一步用作：

生成部，其被配置为生成显示图像，在所述显示图像中，每个位置的行动成本信息与示出行动主体的行动范围的环境地图相关联。

(13)根据(12)所述的记录介质，其中，

所述决定部基于根据显示图像上的用户操作输入的行动成本信息，来决定行动主体在第一环境中的行动。

(14)根据(1)至(13)中任一项所述的记录介质，其中，

所述学习部针对行动主体的每个行动模式执行学习，并且

所述决定部使用对应于行动模式的行动模型来决定行动主体的行动。

(15)根据(1)至(14)中任一项所述的记录介质，其中，

所述行动主体的行动包括移动。

(16)根据(1)至(15)中任一项所述的记录介质，其中，

所述决定部决定行动主体是否能够移动，并且在移动的情况下决定移动方向。

(17)根据(1)至(16)中任一项所述的记录介质，其中，

所述决定部还基于根据通过对第一环境成像而获得的拍摄图像的对象识别结果或根据在第一环境中拾取的语音的语音识别结果中的至少任何一者，来决定行动主体在第一环境中的行动。

(18)一种信息处理设备，包括：

(19)一种由处理器执行的信息处理方法，所述信息处理方法包括：

学习行动模型，用于基于指示第一环境的环境信息和指示当行动主体在第一环境中采取行动时的成本的行动成本信息，来决定行动主体的行动；并且

基于环境信息和行动模型，来决定行动主体在第一环境中的行动。

Claims

1.一种记录有程序的记录介质，所述程序使计算机用作：

学习部，被配置为学习行动模型，所述行动模型用于基于环境信息和行动成本信息，来决定行动主体的行动，所述环境信息指示第一环境，所述行动成本信息指示当所述行动主体在所述第一环境中采取行动时的成本；以及

决定部，被配置为基于所述环境信息和所述行动模型，来决定所述行动主体在所述第一环境中的行动。

2.根据权利要求1所述的记录介质，其中，

所述决定部基于所述环境信息预测所述行动成本信息，所述行动成本信息指示所述行动主体在所述第一环境中采取行动时的成本。

3.根据权利要求2所述的记录介质，其中，

所述学习部从所述环境信息中学习用于预测所述行动成本信息的预测模型，并且

通过将所述环境信息输入到所述预测模型中，来预测所述行动成本信息。

4.根据权利要求3所述的记录介质，其中，

针对所述拍摄图像的每个分割的部分区域预测所述行动成本信息。

5.根据权利要求3所述的记录介质，其中，

通过将所述行动主体在所述第一环境中采取行动时对所述行动主体测量的第一测量信息与所述行动主体在第二环境中采取行动时对所述行动主体测量的第二测量信息进行比较，来计算所述行动成本信息。

6.根据权利要求5所述的记录介质，其中，

所述学习部学习所述预测模型，以最小化通过测量获得的所述行动成本信息和根据所述预测模型通过预测获得的所述行动成本信息之间的误差。

7.根据权利要求5所述的记录介质，其中，

所述第一测量信息和所述第二测量信息是基于移动距离、移动速度、耗电量、包括移动前后的坐标的运动矢量、旋转角度、角速度、振动和倾斜度中的至少任何一种的信息。

8.根据权利要求5所述的记录介质，所述记录介质上记录有使所述计算机进一步用作以下的程序：

更新确定部，被配置为基于通过测量获得的所述行动成本信息和根据所述预测模型通过预测获得的所述行动成本信息之间的误差，来确定是否更新所述预测模型。

9.根据权利要求8所述的记录介质，其中，

所述更新确定部基于用于计算所述行动成本信息的所述第二测量信息和在所述第二环境中新测量的第三测量信息之间的误差，确定是否更新所述第二测量信息。

10.根据权利要求8所述的记录介质，其中，

所述更新确定部基于通过测量获得的所述行动成本信息和根据所述预测模型通过预测获得的所述行动成本信息之间的误差，确定是否更新所述第二测量信息。

11.根据权利要求2所述的记录介质，其中，

所述决定部基于预测的所述行动成本信息来决定所述行动主体在所述第一环境中的行动。

12.根据权利要求1所述的记录介质，所述记录介质上记录有使所述计算机进一步用作以下的程序：

生成部，被配置为生成显示图像，在所述显示图像中，每个位置的所述行动成本信息与示出所述行动主体的行动范围的环境地图相关联。

13.根据权利要求12所述的记录介质，其中，

所述决定部基于根据所述显示图像上的用户操作输入的所述行动成本信息，来决定所述行动主体在所述第一环境中的行动。

14.根据权利要求1所述的记录介质，其中，

所述学习部对所述行动主体的每个行动模式执行学习，并且

所述决定部使用对应于所述行动模式的行动模型来决定所述行动主体的行动。

15.根据权利要求1所述的记录介质，其中，

所述行动主体的行动包括移动。

16.根据权利要求1所述的记录介质，其中，

所述决定部决定所述行动主体是否能够移动，并且在移动的情况下决定移动方向。

17.根据权利要求1所述的记录介质，其中，

所述决定部还基于根据通过对所述第一环境成像而获得的拍摄图像的对象识别结果或根据在所述第一环境中拾取的语音的语音识别结果中的至少任何一者，来决定所述行动主体在所述第一环境中的行动。

18.一种信息处理设备，包括：

学习部，被配置为学习行动模型，所述行动模型用于基于指示第一环境的环境信息和指示行动主体在所述第一环境中采取行动时的成本的行动成本信息，来决定所述行动主体的行动；以及

19.一种由处理器执行的信息处理方法，所述信息处理方法包括：

学习行动模型，用于基于指示第一环境的环境信息和指示行动主体在所述第一环境中采取行动时的成本的行动成本信息，来决定行动主体的行动；并且

基于环境信息和行动模型，来决定所述行动主体在所述第一环境中的行动。