CN114270370A

CN114270370A - 推理装置、设备控制系统和学习装置

Info

Publication number: CN114270370A
Application number: CN201980099585.8A
Authority: CN
Inventors: 老木智章
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2022-04-01
Also published as: KR20220031137A; JP6956931B1; JPWO2021044576A1; WO2021044576A1; TWI751511B; DE112019007598T5; TW202111612A; US20220118612A1; DE112019007598B4

Abstract

推理装置(100)具有：特征量提取器(3)，其受理与包含控制装置(1)和由控制装置(1)控制的设备(2)的环境(E)有关的状态值(s_t)的输入，输出与状态值(s_t)对应且比状态值(s_t)高维的特征向量(v_t)；以及控制器(4)，其受理特征向量(v_t)的输入，输出与特征向量(v_t)对应的控制量(A_t)。

Description

推理装置、设备控制系统和学习装置

技术领域

本发明涉及推理装置、设备控制系统和学习装置。

背景技术

以往，已开发出将所谓的“强化学习”应用于图像处理等的技术(例如，参照专利文献1)。通常，在图像处理等涉及的强化学习中，从图像等得到的状态值的个数较大。即，从图像等得到的特征向量的维数较大。因此，从相对于从图像等得到的特征向量的维数减少输入到智能体的特征向量的维数的观点出发，使用特征量提取器。这是为了避免由于输入到智能体的特征向量的维数过大而导致学习的效率和推理的效率降低。换言之，这是为了提高学习的效率和推理的效率。

现有技术文献

专利文献

专利文献1：国际公开第2017/019555号

发明内容

发明要解决的课题

近年来，已开发出将强化学习应用于设备(例如机器人或自动驾驶汽车)的动作控制的技术。通常，从包含设备的环境得到的状态值的个数比从图像等得到的状态值的个数小。即，从包含设备的环境得到的特征向量的维数比从图像等得到的特征向量的维数小。因此，在设备的动作控制涉及的强化学习中，由于使用与现有的特征量提取器相同的特征量提取器，存在无法提高学习的效率和推理的效率的问题。

以下，在通过强化学习来控制设备的动作时，有时将学习的效率、推理的效率或设备的动作的效率统一简称作“效率”。

本发明正是为了解决如上所述的课题而完成的，其目的在于，在通过强化学习来控制设备的动作时，实现效率的提高。

用于解决课题的手段

本发明的推理装置具有：特征量提取器，其受理与包含控制装置和由控制装置控制的设备的环境有关的状态值的输入，输出与状态值对应且比状态值高维的特征向量；以及控制器，其受理特征向量的输入，输出与特征向量对应的控制量。

本发明的学习装置是推理装置用的学习装置，该推理装置具有第1特征量提取器，该第1特征量提取器受理与包含控制装置和由控制装置控制的设备的环境有关的第1状态值的输入，输出与第1状态值对应且比第1状态值高维的第1特征向量，其中，该学习装置具有：第2特征量提取器，其受理第1特征向量和与环境有关的行动值的输入，输出与第1特征向量和行动值对应且比第1特征向量和行动值高维的第2特征向量；以及学习器，其受理第2特征向量和与环境有关的第2状态值的输入，使用第2特征向量和第2状态值来更新第1特征量提取器的参数。

发明效果

根据本发明，由于如上所述构成，因此，在通过强化学习来控制设备的动作时，能够实现效率的提高。

附图说明

图1是示出实施方式1的设备控制系统的主要部分的框图。

图2是示出由实施方式1的设备控制系统控制的机器人的例子的说明图。

图3是示出实施方式1的设备控制系统中的特征量提取器和控制器的主要部分的说明图。

图4A是示出实施方式1的设备控制系统中的特征量提取器内的各个层具有的构造的说明图。

图4B是示出实施方式1的设备控制系统中的特征量提取器内的各个层具有的其他构造的说明图。

图5A是示出实施方式1的设备控制系统中的推理装置的硬件结构的说明图。

图5B是示出实施方式1的设备控制系统中的推理装置的其他硬件结构的说明图。

图6A是示出实施方式1的设备控制系统中的控制装置的硬件结构的说明图。

图6B是示出实施方式1的设备控制系统中的控制装置的其他硬件结构的说明图。

图7是示出实施方式1的设备控制系统的动作的流程图。

图8是示出实施方式1的设备控制系统中的特征量提取器内的各个层的动作的流程图。

图9是示出实施方式2的强化学习系统的主要部分的框图。

图10是示出实施方式2的强化学习系统中的第1特征量提取器、第2特征量提取器、第1控制器和学习器的主要部分的说明图。

图11A是示出实施方式2的强化学习系统中的学习装置的硬件结构的说明图。

图11B是示出实施方式2的强化学习系统中的学习装置的其他硬件结构的说明图。

图12是示出实施方式2的强化学习系统的动作的流程图。

图13是示出具有特征量提取器的强化学习系统中的学习特性的例子、以及不具有特征量提取器的强化学习系统中的学习特性的例子的特性图。

图14是示出实施方式3的强化学习系统的主要部分的框图。

图15是示出实施方式3的强化学习系统中的存储装置的硬件结构的说明图。

具体实施方式

以下，为了更详细地说明本发明，按照附图说明用于实施本发明的方式。

实施方式1

图1是示出实施方式1的设备控制系统的主要部分的框图。图2是示出由实施方式1的设备控制系统控制的机器人的例子的说明图。图3是示出实施方式1的设备控制系统中的特征量提取器和控制器的主要部分的说明图。图4A是示出实施方式1的设备控制系统中的特征量提取器内的各个层具有的构造的说明图。图4B是示出实施方式1的设备控制系统中的特征量提取器内的各个层具有的其他构造的说明图。参照图1～图4，对实施方式1的设备控制系统进行说明。

如图1所示，环境E包含控制装置1和机器人2。控制装置1控制机器人2的动作。如图2所示，机器人2例如由机械臂构成。

如图1所示，形成由控制装置1、特征量提取器3和控制器4构成的循环。控制装置1输出表示机器人2的状态的状态值s_t。特征量提取器3受理该输出的状态值s_t的输入。特征量提取器3输出与该输入的状态值s_t对应的特征向量v_t。控制器4受理该输出的特征向量v_t的输入。控制器4输出与该输入的特征向量v_t对应的控制量A_t。控制装置1受理该输出的控制量A_t的输入。控制装置1使用该输入的控制量A_t来控制机器人2的动作。由此，更新机器人2的状态。控制装置1输出表示该更新的状态的状态值s_t。

状态值s_t例如包含表示上述机械臂的手的位置的值、以及表示上述机械臂的手的速度的值。控制量A_t例如包含表示用于上述机械臂的动作控制的转矩的值。

如图3所示，特征量提取器3由神经网络NN1构成。神经网络NN1具有多个层L1。各个层L1例如由所谓的“全耦合层”(以下记载作“FC层”)构成。在此，各个层L1具有如下的构造S。

第一，构造S受理由前一层L1输出的向量(以下称作“第1向量”)x1的输入。但是，输入到多个层L1中的最初的层L1中的构造S的第1向量x1是表示由控制装置1输出的状态值s_t的向量，而不是由前一层L1输出的向量。

第二，构造S生成对该输入的第1向量x1进行转换而成的向量(以下称作“第2向量”)x2。由此，例如，生成具有比第1向量x1的维数小的维数的第2向量x2。换言之，例如，生成比第1向量x1低维的第2向量x2。

第三，构造S生成基于该输入的第1向量x1的向量(以下称作“第3向量”)x3。由此，例如，生成具有与第1向量x1的维数同等的维数的第3向量x3。

第四，构造S生成耦合该生成的第2向量x2和该生成的第3向量x3而成的向量(以下称作“第4向量”)x4。由此，生成具有比第1向量x1的维数大的维数的第4向量x4。换言之，生成比第1向量x1高维的第4向量x4。

第五，构造S将该生成的第4向量x4输出到下一层L1。但是，多个层L1中的最后层L1中的构造S将该生成的第4向量x4输出到控制器4。由最后层L1中的构造S输出的第4向量x4成为输入到控制器4的特征向量v_t。

图4A和图4B分别示出构造S的例子。在图4A所示的例子中，第3向量x3是复制第1向量x1而成的。换言之，第3向量x3是与第1向量x1相同的向量。在该情况下，构造S执行复制第1向量x1的处理(以下称作“复制处理”)。此外，构造S包含执行将第1向量x1转换成第2向量x2的处理(以下称作“第1转换处理”)的学习型的转换器(以下称作“第1转换器”)11。第1转换器11例如由FC层构成。

另一方面，在图4B所示的例子中，第3向量x3是对第1向量x1进行转换而成的。在该情况下，除了第1转换器11之外，构造S还包含执行将第1向量x1转换成第3向量x3的处理(以下称作“第2转换处理”)的非学习型的转换器(以下称作“第2转换器”)12。第2转换器12根据规定的转换规则，将第1向量x1转换成第3向量x3。

通过各个层L1具有构造S，能够相对于输入到特征量提取器3的状态值s_t的个数，增大输入到控制器4的特征向量v_t的维数。由此，即使在从环境E得到的状态值s_t的个数较小的情况下，也能够对推理装置100中的推理使用高维的特征向量v_t。换言之，能够增大用于推理装置100中的推理的信息量。其结果是，能够高效地控制机器人2的动作。

即，在设备的动作控制涉及的强化学习中，在假设使用了与现有的特征量提取器相同的特征量提取器的情况下，输入到智能体的特征向量的维数进一步减小。输入到智能体的特征向量的维数较小意味着用于推理的信息量较小。因此，在该情况下，由于用于推理的信息量较小，因此，存在难以实现与较高的报酬值对应的推理这样的问题。其结果是，存在难以高效地控制设备的动作这样的问题。

与此相对，通过使用特征量提取器3，如上所述，能够增大用于推理装置100中的推理的信息量。其结果是，能够高效地控制机器人2的动作。即，能够实现效率的提高。

此外，复制处理比学习型的第1转换处理简单。此外，非学习型的第2转换处理比学习型的第1转换处理简单。因此，在增大特征向量v_t的维数时，通过使用复制处理或者第2转换处理，能够减少推理装置100中的运算量。其结果是，能够提高推理装置100中的推理的效率。

如图3所示，控制器4由神经网络NN2构成。神经网络NN2具有多个层L2。各个层L2例如由FC层构成。控制器4例如与所谓的“Actor-Critic”算法中的“Actor”元素对应。即，推理装置100中的推理是基于强化学习的推理。

如图1所示，由特征量提取器3和控制器4构成推理装置100的主要部分。此外，由推理装置100和控制装置1构成设备控制系统200的主要部分。此外，由设备控制系统200和机器人2构成机器人系统300的主要部分。

接着，参照图5说明推理装置100的主要部分的硬件结构。

如图5A所示，推理装置100具有处理器21和存储器22。在存储器22中存储有用于实现特征量提取器3和控制器4的功能的程序。通过处理器21读出并执行该程序，实现特征量提取器3和控制器4的功能。

或者，如图5B所示，推理装置100具有处理电路23。在该情况下，特征量提取器3和控制器4的功能通过专用的处理电路23来实现。

或者，推理装置100具有处理器21、存储器22和处理电路23(未图示)。在该情况下，特征量提取器3和控制器4的功能中的一部分功能通过处理器21和存储器22来实现，并且剩余的功能通过专用的处理电路23来实现。

处理器21由1个或多个处理器构成。各个处理器例如使用CPU(CentralProcessing Unit：中央处理单元)、GPU(Graphics Processing Unit：图形处理单元)、微处理器、微控制器或DSP(Digital Signal Processor：数字信号处理器)。

存储器22由1个或多个非易失性存储器构成。或者，存储器22由1个或多个非易失性存储器以及1个或多个易失性存储器构成。即，存储器22由1个或多个存储器构成。各个存储器例如使用半导体存储器、磁盘、光盘、光磁盘或磁带。更具体而言，各个易失性存储器例如使用RAM(Random Access Memory：随机存取存储器)。此外，各个非易失性存储器例如使用ROM(Read Only Memory：只读存储器)、闪存、EPROM(Erasable Programmable Read OnlyMemory：可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable ReadOnly Memory：电可擦除可编程只读存储器)、固态驱动器、硬盘驱动器、软盘、光盘、DVD(Digital Versatile Disc：数字多功能盘)、蓝光光盘或迷你光盘。

处理电路23由1个或多个数字电路构成。或者，处理电路23由1个或多个数字电路以及1个或多个模拟电路构成。即，处理电路23由1个或多个处理电路构成。各个处理电路例如使用ASIC(Application Specific Integrated Circuit：专用集成电路)、PLD(Programmable Logic Device：可编程逻辑器件)、FPGA(Field Programmable GateArray：现场可编程门阵列)、SoC(System on a Chip：系统芯片)或系统LSI(Large ScaleIntegration：大规模集成电路)。

接着，参照图6说明控制装置1的主要部分的硬件结构。

如图6A所示，控制装置1具有处理器31和存储器32。在存储器32中存储有用于实现控制装置1的功能的程序。通过处理器31读出并执行该程序，实现控制装置1的功能。

或者，如图6B所示，控制装置1具有处理电路33。在该情况下，控制装置1的功能通过专用的处理电路33来实现。

或者，控制装置1具有处理器31、存储器32和处理电路33(未图示)。在该情况下，控制装置1的功能中的一部分功能通过处理器31和存储器32来实现，并且剩余的功能通过专用的处理电路33来实现。

处理器31由1个或多个处理器构成。各个处理器例如使用CPU、GPU、微处理器、微控制器或DSP。

存储器32由1个或多个非易失性存储器构成。或者，存储器32由1个或多个非易失性存储器以及1个或多个易失性存储器构成。即，存储器32由1个或多个存储器构成。各个存储器例如使用半导体存储器、磁盘、光盘、光磁盘或磁带。更具体而言，各个易失性存储器例如使用RAM。此外，各个非易失性存储器例如使用ROM、闪存、EPROM、EEPROM、固态驱动器、硬盘驱动器、软盘、光盘、DVD、蓝光光盘或迷你光盘。

处理电路33由1个或多个数字电路构成。或者，处理电路33由1个或多个数字电路以及1个或多个模拟电路构成。即，处理电路33由1个或多个处理电路构成。各个处理电路例如使用ASIC、PLD、FPGA、SoC或系统LSI。

接着，参照图7的流程图说明设备控制系统200的动作。在控制装置1输出了状态值s_t时，执行步骤ST1的处理。

首先，特征量提取器3受理状态值s_t的输入，输出与该输入的状态值s_t对应的特征向量v_t(步骤ST1)。接着，控制器4受理特征向量v_t的输入，输出与该输入的特征向量v_t对应的控制量A_t(步骤ST2)。接着，控制装置1受理控制量A_t的输入，使用该输入的控制量A_t来控制机器人2的动作(步骤ST3)。

通过控制装置1控制机器人2的动作，更新机器人2的状态。控制装置1输出表示该更新后的状态的状态值s_t。由此，设备控制系统200的处理返回到步骤ST1。以下，反复执行步骤ST1～ST3的处理。

接着，参照图8的流程图说明特征量提取器3中的各个层L1的动作。即，对构造S的动作进行说明。

首先，构造S受理第1向量x1的输入(步骤ST11)。接着，构造S通过执行对第1向量x1的第1转换处理，生成第2向量x2(步骤ST12)。接着，构造S通过执行对第1向量x1的复制处理或第2转换处理，生成第3向量x3(步骤ST13)。接着，构造S通过耦合第2向量x2和第3向量x3，生成第4向量x4(步骤ST14)。接着，构造S输出第4向量x4(步骤ST15)。

接着，对设备控制系统200的变形例进行说明。

神经网络NN1中的层L1的个数以及具有构造S的层L1的个数不限于上述的具体例。这些个数只要被设定成输入到控制器4的特征向量v_t的维数相对于输入到特征量提取器3的状态值s_t的个数增大即可。

例如，如上所述，也可以是，神经网络NN1具有多个层L1，并且该多个层L1分别具有构造S。或者，例如，也可以是，神经网络NN1具有1个层L1来替代多个层L1，并且该1个层L1具有构造S。

或者，例如，也可以是，神经网络NN1具有多个层L1，并且该多个层L1中的选择出的2个以上的层L1分别具有构造S。在该情况下，该多个层L1中的剩余的1个以上的层L1也可以分别不具有构造S。

或者，例如，也可以是，神经网络NN1具有多个层L1，并且该多个层L1中的选择出的1个层L1具有构造S。在该情况下，该多个层L1中的剩余的1个以上的层L1也可以分别不具有构造S。

但是，从进一步增大用于推理装置100中的推理的信息量的观点出发，优选增大具有构造S的层L1的个数。因此，优选在神经网络NN1设置有多个层L1，并且在该多个层L1分别设置有构造S。

此外，神经网络NN2中的层L2的个数不限于上述的具体例。神经网络NN2也可以具有1个层L2来替代多个层L2。即，推理装置100中的推理也可以是基于所谓的“深层型”的强化学习的推理。或者，推理装置100中的推理也可以是基于非深层型的强化学习的推理。

此外，控制装置1的硬件也可以与推理装置100的硬件一体地构成。即，图6A所示的处理器31也可以与图5A所示的处理器21一体地构成。图6A所示的存储器32也可以与图5A所示的存储器22一体地构成。图6B所示的处理电路33也可以与图5B所示的处理电路23一体地构成。

此外，控制装置1的控制对象不限于机器人2。控制装置1也可以控制任何设备的动作。例如，控制装置1也可以控制自动驾驶汽车的动作。

如上所述，推理装置100具有：特征量提取器3，其受理与包含控制装置1和由控制装置1控制的设备(例如机器人2)的环境E有关的状态值s_t的输入，输出与状态值s_t对应且比状态值s_t高维的特征向量v_t；以及控制器4，其受理特征向量v_t的输入，输出与特征向量v_t对应的控制量A_t。通过使用特征量提取器3，能够相对于从环境E得到的状态值s_t的个数，增大输入到控制器4的特征向量v_t的维数。由此，能够增大用于推理装置100中的推理的信息量。其结果是，能够高效地控制设备(例如机器人2)的动作。

此外，特征量提取器3具有1个层L1或多个层L1，1个层L1或多个层L1中的至少1个层L1具有如下构造S：通过受理第1向量x1的输入并对第1向量x1进行转换，生成第2向量x2，通过生成基于第1向量x1的第3向量x3并耦合第2向量x2和第3向量x3，生成比第1向量x1高维的第4向量x4，输出第4向量x4。通过使用构造S，能够实现特征量提取器3。

此外，构造S通过复制第1向量x1而生成第3向量x3，并且包含将第1向量x1转换成第2向量x2的学习型的第1转换器11。在增大特征向量v_t的维数时，通过使用复制处理，能够减少推理装置100中的运算量。其结果是，能够提高推理装置100中的推理的效率。

此外，构造S通过对第1向量x1进行转换而生成第3向量x3，并且包含将第1向量x1转换成第2向量x2的学习型的第1转换器11、以及将第1向量x1转换成第3向量x3的非学习型的第2转换器12。在增大特征向量v_t的维数时，通过使用非学习型的第2转换处理，能够减少推理装置100中的运算量。其结果是，能够提高推理装置100中的推理的效率。

此外，特征量提取器3具有多个层L1，并且多个层L1分别具有构造S。通过增大具有构造S的层L1的个数，能够进一步增大用于推理装置100中的推理的信息量。

此外，设备控制系统200具有推理装置100，设备是机器人2，特征量提取器3受理与包含机器人2的环境E有关的状态值s_t的输入，控制器4输出用于控制机器人2的控制量A_t。通过使用推理装置100，如上所述，能够高效地控制机器人2(例如机械臂)的动作。

实施方式2

图9是示出实施方式2的强化学习系统的主要部分的框图。图10是示出实施方式2的强化学习系统中的第1特征量提取器、第2特征量提取器、第1控制器和学习器的主要部分的说明图。参照图9和图10说明实施方式2的强化学习系统。

如图9所示，形成由环境E、第1特征量提取器41和第1控制器51构成的循环。环境E输出表示环境E中的状态的状态值(以下称作“第1状态值”)s_t。第1特征量提取器41受理该输出的第1状态值s_t的输入。第1特征量提取器41输出与该输入的第1状态值s_t对应的特征向量(以下称作“第1特征向量”)v_t。第1控制器51受理该输出的第1特征向量v_t的输入。第1控制器51输出与该输入的第1特征向量v_t对应的行动值a_t。环境E受理该输出的行动值a_t的输入。在环境E中，执行与该输入的行动值a_t对应的行动。由此，更新环境E中的状态。环境E输出表示该更新后的状态的状态值(以下称作“第2状态值”)s_t。以下，有时对第2状态值使用“s_t+1”的标记。

即，图9所示的环境E相当于图1所示的环境E。因此，图9所示的环境E包含控制装置1和机器人2(未图示)。此外，图9所示的第1特征量提取器41相当于图1所示的特征量提取器3。此外，图9所示的第1控制器51相当于图1所示的控制器4。此外，图9所示的行动值a_t相当于图1所示的控制量At。

如图10所示，第1特征量提取器41由神经网络NN1_1构成。神经网络NN1_1具有多个层L1_1。各个层L1_1例如由FC层构成。在此，各个层L1_1具有与构造S相同的构造S_1。关于构造S_1，由于与在实施方式1中参照图4说明的结构相同，因此省略图示和说明。通过各个层L1_1具有构造S_1，输入到第1控制器51的第1特征向量v_t的维数相对于输入到第1特征量提取器41的第1状态值s_t的个数增大。

如图10所示，第1控制器51由神经网络NN2构成。神经网络NN2具有多个层L2。各个层L2例如由FC层构成。第1控制器51与所谓的“Actor-Critic”算法中的“Actor”元素对应。

如图9所示，除了设置有第1特征量提取器41之外，还设置有第2特征量提取器42。由第1特征量提取器41和第2特征量提取器42构成特征量提取器40的主要部分。

第2特征量提取器42受理由第1特征量提取器41输出的第1特征向量v_t的输入。此外，第2特征量提取器42受理行动值a_t的输入。输入到第2特征量提取器42的行动值a_t例如是由环境E内的控制装置1输出的。第2特征量提取器42输出与该输入的第1特征向量v_t和该输入的行动值a_t对应的特征向量(以下称作“第2特征向量”)v_t’。在此，如上所述，第1特征向量v_t是与第1状态值s_t对应的特征向量。因此，第2特征向量vt’是与由第1状态值s_t和行动值a_t构成的组对应的特征向量。

如图10所示，第2特征量提取器42由神经网络NN1_2构成。神经网络NN1_2具有多个层L1_2。各个层L1_2例如由FC层构成。在此，各个层L1_2具有与构造S相同的构造S_2。关于构造S_2，由于与在实施方式1中参照图4说明的结构相同，因此省略图示和说明。通过各个层L1_2具有构造S_2，输入到学习器52的第2特征向量v_t’的维数相对于由输入到第2特征量提取器42的第1特征向量v_t的维数和行动值a_t的个数构成的合计数增大。

如图9所示，除了设置有第1控制器51之外，还设置有学习器52。由第1控制器51和学习装置52构成智能体50的主要部分。学习器52与所谓的“Actor-Critic”算法中的“Critic”元素对应。

即，如图10所示，学习器52具有神经网络NN3。神经网络NN3具有1个层L3。1个层L3例如由FC层构成。神经网络NN3受理由第2特征量提取器42输出的第2特征向量v_t’的输入。另一方面，神经网络NN3输出第2状态值s_t+1的预测值s_t+1’。换言之，神经网络NN3使用该输入的第2特征向量v_t’来计算预测值s_t+1’。

此外，如图10所示，学习器52具有参数设定器61。参数设定器61受理由神经网络NN3输出的预测值s_t+1’的输入。除此之外，参数设定器61受理由环境E内的控制装置1输出的第2状态值s_t+1的输入。参数设定器61使用该输入的预测值s_t+1’和该输入的第2状态值s_t+1，通过强化学习来更新第1特征量提取器41的参数P1，并且更新第1控制器51的参数P2。

更具体而言，参数设定器61计算基于预测值s_t+1’相对于第2状态值s_t+1之差的损失值L。参数设定器61以使损失值L减小的方式更新参数P1、P2。

由参数设定器61更新的参数P1例如包含神经网络NN1_1中的层L1_1的个数(以下称作“层数”)、以及神经网络NN1_1中的各个活化函数。此外，由参数设定器61更新的参数P1例如包含神经网络NN1_1中的各个第1转换器(未图示)的构造。即，由参数设定器61更新的参数P1包含多个参数。与此相同，由参数设定器61更新的参数P2包含多个参数。

如图9所示，由第1特征量提取器41和第1控制器51构成推理装置100的主要部分。此外，由第2特征量提取器42和学习器52构成学习装置400的主要部分。此外，由推理装置100和学习装置400构成强化学习系统500的主要部分。

关于推理装置100的主要部分的硬件结构，由于与在实施方式1中参照图5说明的结构相同，因此省略图示和说明。即，第1特征量提取器41和第1控制器51的功能可以通过处理器21和存储器22来实现，或者也可以通过专用的处理电路23来实现。

接着，参照图11说明学习装置400的主要部分的硬件结构。

如图11A所示，学习装置400具有处理器71和存储器72。在存储器72中存储有用于实现第2特征量提取器42和学习器52的功能的程序。通过处理器71读出并执行该程序，实现第2特征量提取器42和学习器52的功能。

或者，如图11B所示，学习装置400具有处理电路73。在该情况下，第2特征量提取器42和学习器52的功能通过专用的处理电路73来实现。

或者，学习装置400具有处理器71、存储器72和处理电路73(未图示)。在该情况下，第2特征量提取器42和学习器52的功能中的一部分功能通过处理器71和存储器72来实现，并且剩余的功能通过专用的处理电路73来实现。

处理器71由1个或多个处理器构成。各个处理器例如使用CPU、GPU、微处理器、微控制器或DSP。

存储器72由1个或多个非易失性存储器构成。或者，存储器72由1个或多个非易失性存储器以及1个或多个易失性存储器构成。即，存储器72由1个或多个存储器构成。各个存储器例如使用半导体存储器、磁盘、光盘、光磁盘或磁带。更具体而言，各个易失性存储器例如使用RAM。此外，各个非易失性存储器例如使用ROM、闪存、EPROM、EEPROM、固态驱动器、硬盘驱动器、软盘、光盘、DVD、蓝光光盘或迷你光盘。

处理电路73由1个或多个数字电路构成。或者，处理电路73由1个或多个数字电路以及1个或多个模拟电路构成。即，处理电路73由1个或多个处理电路构成。各个处理电路例如使用ASIC、PLD、FPGA、SoC或系统LSI。

接着，参照图12的流程图，以第1特征量提取器41、第2特征量提取器42和学习器52的动作为中心对强化学习系统500的动作进行说明。即，以学习装置400的学习涉及的动作为中心进行说明。

图12所示的处理例如与图7所示的处理并行地反复执行。即，学习装置400的学习例如与推理装置100的推理和控制装置1的控制并行地反复执行。图12所示的步骤ST21的处理相当于图7所示的步骤ST1的处理。

首先，第1特征量提取器41受理第1状态值s_t的输入，输出与该输入的第1状态值s_t对应的第1特征向量v_t(步骤ST21)。

接着，第2特征量提取器42受理第1特征向量v_t和行动值a_t的输入，输出与该输入的第1特征向量v_t和行动值a_t对应的第2特征向量v_t’(步骤ST22)。

接着，学习器52内的神经网络NN3受理第2特征向量v_t’的输入，输出预测值s_t+1’(步骤ST23)。

接着，学习器52内的参数设定器61受理预测值s_t+1’和第2状态值s_t+1的输入，以使损失值L减小的方式更新参数P1、P2(步骤ST24)。

接着，参照图13说明由于使用特征量提取器40而带来的效果。更具体而言，以提高学习效率的效果为中心进行说明。

在以下的参考文献1中，公开有所谓的“Soft Actor-Critic”算法。

[参考文献1]

Tuomas Haarnoja,Aurick Zhou,Pieter Abbeel,and Sergey Levine,"SoftActor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with aStochastic Actor,"version 2,8August 2018,URL:https://arxiv.org/pdf/1801.01290v2.pdf

以下，将使用基于参考文献1记载的“Soft Actor-Critic”算法的智能体且具有相当于特征量提取器40的特征量提取器的强化学习系统S1称作“第1强化学习系统”。此外，将使用基于参考文献1记载的“Soft Actor-Critic”算法的智能体且不具有相当于特征量提取器40的特征量提取器的强化学习系统S2称作“第2强化学习系统”。

即，第1强化学习系统S1与实施方式2的强化学习系统500对应。另一方面，第2强化学习系统S2与现有的强化学习系统对应。

在第1强化学习系统S1中，相当于第1特征量提取器41的特征量提取器具有8个层。该8个层分别具有与构造S相同的构造。由此，相对于输入到该特征量提取器的向量的维数(即，与状态值s_t对应的特征向量的维数)，由该特征量提取器输出的向量的维数(即，输入到“actor”元素的特征向量的维数)增加240。

此外，在第1强化学习系统S1中，相当于第2特征量提取器42的特征量提取器具有16个层。该16个层分别具有与构造S相同的构造。由此，相对于输入到该特征量提取器的向量的维数(即，与由状态值s_t和行动值a_t构成的组对应的特征向量的维数)，由该特征量提取器输出的向量的维数(即，输入到“Critic”元素的特征向量的维数)增加480。

图13中的特性线I表示使用了第1强化学习系统S1的实验结果的例子。此外，图13中的特性线II表示使用了第2强化学习系统S2的实验结果的例子。这些实验结果基于所谓的“Ant-v2”基准。

图13中的横轴与数据数量对应。数据数量与反复执行强化学习系统S1、S2各自的学习和推理时的推理的执行次数对应。即，数据数量与从环境E得到的值(包含状态值s_t)的个数的累积值对应。此外，图13中的纵轴与得分对应。得分与反复执行强化学习系统S1、S2各自的学习和推理时的通过基于各次推理结果的行动而得到的报酬值r_t对应。

即，特性线I表示第1强化学习系统S1中的学习特性。此外，特性线II表示第2强化学习系统S2中的学习特性。

如图13所示，通过使用第1强化学习系统S1，与使用第2强化学习系统S2的情况相比，能够提高相对于数据数量的得分。这表示在实现与规定的报酬值r_t对应的推理时，通过使用特征量提取器40，能够减少智能体50与环境E之间的对话次数。

此外，如图13所示，通过使用第1强化学习系统S1，与使用第2强化学习系统S2的情况相比，能够提高得分的最大值。这表示通过使用特征量提取器40，能够实现与更高的报酬值r_t对应的推理。

这样，通过使用特征量提取器40，能够提高学习的效率。此外，能够提高推理的效率。

接着，对强化学习系统500的变形例进行说明。

神经网络NN1_1中的层L1_1的个数以及具有构造S_1的层L1_1的个数不限于上述的具体例。这些个数只要被设定成输入到第1控制器51的特征向量v_t的维数相对于输入到第1特征量提取器41的状态值s_t的个数增大即可。

例如，如上所述，也可以是，神经网络NN1_1具有多个层L1_1，并且该多个层L1_1分别具有构造S_1。或者，例如，也可以是，神经网络NN1_1具有1个层L1_1来替代多个层L1_1，并且该1个层L1_1具有构造S_1。

或者，例如，也可以是，神经网络NN1_1具有多个层L1_1，并且该多个层L1_1中的选择出的2个以上的层L1_1分别具有构造S_1。在该情况下，该多个层L1_1中的剩余的1个以上的层L1_1也可以分别不具有构造S_1。

或者，例如，也可以是，神经网络NN1_1具有多个层L1_1，并且该多个层L1_1中的选择出的1个层L1_1具有构造S_1。在该情况下，该多个层L1_1中的剩余的1个以上的层L1_1也可以分别不具有构造S_1。

此外，神经网络NN1_2中的层L1_2的个数以及具有构造S_2的层L1_2的个数不限于上述的具体例。这些个数只要被设定成输入到学习器52的第2特征向量v_t’的维数相对于由输入到第2特征量提取器42的第1特征向量v_t的维数和行动值a_t的个数构成的合计数增大即可。

例如，如上所述，也可以是，神经网络NN1_2具有多个层L1_2，并且该多个层L1_2分别具有构造S_2。或者，例如，也可以是，神经网络NN1_2具有1个层L1_2来替代多个层L1_2，并且该1个层L1_2具有构造S_2。

或者，例如，也可以是，神经网络NN1_2具有多个层L1_2，并且该多个层L1_2中的选择出的2个以上的层L1_2分别具有构造S_2。在该情况下，该多个层L1_2中的剩余的1个以上的层L1_2也可以分别不具有构造S_2。

或者，例如，也可以是，神经网络NN1_2具有多个层L1_2，并且该多个层L1_2中的选择出的1个层L1_2具有构造S_2。在该情况下，该多个层L1_2中的剩余的1个以上的层L1_2也可以分别不具有构造S_2。

此外，学习装置400的硬件也可以与推理装置100的硬件一体地构成。即，图11A所示的处理器71也可以与图5A所示的处理器21一体地构成。图11A所示的存储器72也可以与图5A所示的存储器22一体地构成。图11B所示的处理电路73也可以与图5B所示的处理电路23一体地构成。

如上所述，学习装置400是一种推理装置100用的学习装置400，该学习装置400具有第1特征量提取器41，该第1特征量提取器41受理与包含控制装置1和由控制装置1控制的设备(例如机器人2)的环境E有关的第1状态值s_t的输入，输出与第1状态值s_t对应且比第1状态值s_t高维的第1特征向量v_t，其中，该学习装置400具有：第2特征量提取器42，其受理第1特征向量v_t和与环境有关的行动值a_t的输入，输出与第1特征向量v_t和行动值a_t对应且比第1特征向量和行动值高维的第2特征向量v_t’；以及学习器52，其受理第2特征向量v_t’和与环境E有关的第2状态值s_t+1的输入，使用第2特征向量v_t’和第2状态值s_t+1来更新第1特征量提取器41的参数P1。如图13所示，通过使用特征量提取器40，能够提高学习的效率。此外，能够提高推理的效率。

此外，第1特征量提取器41和第2特征量提取器42分别具有1个层L1或多个层L1，1个层L1或多个层L1中的至少1个层L1具有如下构造S：通过受理第1向量x1的输入并对第1向量x1进行转换，生成第2向量x2，通过生成基于第1向量x1的第3向量x3并耦合第2向量x2和第3向量x3，生成比第1向量x1高维的第4向量x4，输出第4向量x4。通过使用构造S，能够实现特征量提取器40。

此外，学习器52使用第2特征向量v_t’来计算第2状态值s_t+1的预测值s_t+1’，以使基于预测值s_t+1’相对于第2状态值s_t+1之差的损失值L减小的方式更新参数P1。由此，能够实现与第1特征量提取器41的学习对应的学习器52。

此外，参数P1包含第1特征量提取器41中的层数和第1特征量提取器41中的各个活化函数。由此，能够实现与第1特征量提取器41的学习对应的学习器52。

实施方式3

图14是示出实施方式3的强化学习系统的主要部分的框图。参照图14说明实施方式3的强化学习系统。此外，在图14中，对与图9所示的块相同的块标注相同的标号并省略说明。

如图14所示，实施方式3的强化学习系统500除了推理装置100和学习装置400之外，还包含存储装置81。在存储装置81中存储有由第1状态值s_t、对应的行动值a_t和对应的第2状态值s_t+1构成的组。更具体而言，存储有多组的值(s_t、a_t、s_t+1)。这些值(s_t、a_t、s_t+1)是使用与第1控制器51不同的其他控制器(以下，称作“第2控制器”)收集到的。第2控制器例如是相对于环境E随机地动作的虚拟控制器。

存储装置81输出该存储的值(s_t、a_t、s_t+1)。在学习装置400执行学习时，可以替代由环境E内的控制装置1输出的值(s_t、a_t、s_t+1)，而使用由存储装置81输出的值(s_t、a_t、s_t+1)。

即，在图12所示的步骤ST21中，第1特征量提取器41可以替代受理由环境E内的控制装置1输出的第1状态值s_t的输入，而受理由存储装置81输出的第1状态值s_t的输入。此外，在图12所示的步骤ST22中，第2特征量提取器42可以替代受理由环境E内的控制装置1输出的行动值a_t的输入，而受理由存储装置81输出的行动值a_t的输入。此外，在图12所示的步骤ST24中，学习器52内的参数设定器61可以替代受理由环境E内的控制装置1输出的第2状态值s_t+1的输入，而受理由存储装置81输出的第2状态值s_t+1的输入。

在该情况下，也可以在执行图7所示的处理之前，预先执行图12所示的处理。即，也可以在执行推理装置100的推理和控制装置1的控制之前，预先执行学习装置400的学习。

接着，参照图15说明存储装置81的主要部分的硬件结构。

如图15所示，存储装置81具有存储器91。存储装置81的功能通过存储器91来实现。存储器91由1个或多个非易失性存储器构成。各个非易失性存储器例如使用半导体存储器、磁盘、光盘、光磁盘或磁带。更具体而言，各个非易失性存储器例如使用ROM、闪存、EPROM、EEPROM、固态驱动器、硬盘驱动器、软盘、光盘、DVD、蓝光光盘或迷你光盘。

另外，存储装置81的硬件也可以与学习装置400的硬件一体地构成。即，图15所示的存储器91也可以与图11A所示的存储器72一体地构成。

此外，存储装置81的硬件也可以与推理装置100的硬件一体地构成。即，图15所示的存储器91也可以与图5A所示的存储器22一体地构成。

此外，实施方式3的强化学习系统500能够采用与实施方式2中说明的内容相同的各种变形例。

如上所述，推理装置100具有第1控制器51，该第1控制器51受理第1特征向量v_t的输入，输出与第1特征向量v_t对应的行动值a_t，输入到第1特征量提取器41的第1状态值s_t、输入到第2特征量提取器42的行动值a_t和输入到学习器52的第2状态值s_t+1是使用与第1控制器51不同的第2控制器收集到的。通过使用第2控制器，能够在执行推理装置100的推理和控制装置1的控制之前，预先执行学习装置400的学习。

此外，第2控制器相对于环境E随机地动作。由此，能够收集相互不同的多组的值(s_t、a_t、s_t+1)。

此外，本申请在其发明的范围内，能够实现各实施方式的自由组合、或各实施方式的任意结构要素的变形、或各实施方式中的任意结构要素的省略。

产业上的可利用性

本发明的推理装置、设备控制系统和学习装置例如能够用于机器人的动作控制。

标号说明

1：控制装置；2：机器人；3：特征量提取器；4：控制器；11：第1转换器；12：第2转换器；21：处理器；22：存储器；23：处理电路；31：处理器；32：存储器；33：处理电路；40：特征量提取器；41：第1特征量提取器；42：第2特征量提取器；50：智能体；51：第1控制器；52：学习器；61：参数设定器；71：处理器；72：存储器；73：处理电路；81：存储装置；91：存储器；100：推理装置；200：设备控制系统；300：机器人系统；400：学习装置；500：强化学习系统。

Claims

1.一种推理装置，其特征在于，该推理装置具有：

特征量提取器，其受理与包含控制装置和由所述控制装置控制的设备的环境有关的状态值的输入，输出与所述状态值对应且比所述状态值高维的特征向量；以及

控制器，其受理所述特征向量的输入，输出与所述特征向量对应的控制量。

2.根据权利要求1所述的推理装置，其特征在于，

所述特征量提取器具有1个层或多个层，

所述1个层或所述多个层中的至少1个层具有如下构造：通过受理第1向量的输入并对所述第1向量进行转换，生成第2向量，通过生成基于所述第1向量的第3向量并耦合所述第2向量和所述第3向量，生成比所述第1向量高维的第4向量，输出所述第4向量。

3.根据权利要求2所述的推理装置，其特征在于，

所述构造通过复制所述第1向量而生成所述第3向量，并且包含将所述第1向量转换成所述第2向量的学习型的第1转换器。

4.根据权利要求2所述的推理装置，其特征在于，

所述构造通过对所述第1向量进行转换而生成所述第3向量，并且包含将所述第1向量转换成所述第2向量的学习型的第1转换器、以及将所述第1向量转换成所述第3向量的非学习型的第2转换器。

5.根据权利要求2～4中的任意一项所述的推理装置，其特征在于，

所述特征量提取器具有所述多个层，并且所述多个层分别具有所述构造。

6.一种设备控制系统，其特征在于，

该设备控制系统具有权利要求1～5中的任意一项所述的推理装置，

所述设备是机器人，

所述特征量提取器受理与包含所述机器人的所述环境有关的所述状态值的输入，

所述控制器输出用于控制所述机器人的所述控制量。

7.一种推理装置用的学习装置，该推理装置具有第1特征量提取器，该第1特征量提取器受理与包含控制装置和由所述控制装置控制的设备的环境有关的第1状态值的输入，输出与所述第1状态值对应且比所述第1状态值高维的第1特征向量，其特征在于，该学习装置具有：

第2特征量提取器，其受理所述第1特征向量和与所述环境有关的行动值的输入，输出与所述第1特征向量和所述行动值对应且比所述第1特征向量和所述行动值高维的第2特征向量；以及

学习器，其受理所述第2特征向量和与所述环境有关的第2状态值的输入，使用所述第2特征向量和所述第2状态值来更新所述第1特征量提取器的参数。

8.根据权利要求7所述的学习装置，其特征在于，

所述第1特征量提取器和所述第2特征量提取器分别具有1个层或多个层，

9.根据权利要求7或8所述的学习装置，其特征在于，

所述学习器使用所述第2特征向量来计算所述第2状态值的预测值，以使基于所述预测值相对于所述第2状态值之差的损失值减小的方式更新所述参数。

10.根据权利要求7～9中的任意一项所述的学习装置，其特征在于，

所述推理装置具有第1控制器，该第1控制器受理所述第1特征向量的输入，输出与所述第1特征向量对应的所述行动值，

输入到所述第1特征量提取器的所述第1状态值、输入到所述第2特征量提取器的所述行动值和输入到所述学习器的所述第2状态值是使用与所述第1控制器不同的第2控制器收集到的。

11.根据权利要求10所述的学习装置，其特征在于，

所述第2控制器相对于所述环境随机地动作。

12.根据权利要求7～11中的任意一项所述的学习装置，其特征在于，

所述参数包含所述第1特征量提取器中的层数和所述第1特征量提取器中的各个活化函数。