CN116194253A

CN116194253A - 学习装置及方法、学习程序、控制装置及方法、控制程序

Info

Publication number: CN116194253A
Application number: CN202180058143.6A
Authority: CN
Inventors: 田中一敏; 滨屋政志; 米谷龙
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2020-08-31
Filing date: 2021-07-16
Publication date: 2023-05-30
Also published as: JP2022041294A; EP4205916A1; US20240054393A1; TWI781708B; TW202211073A; WO2022044615A1

Abstract

学习装置具备：制作部，其制作包含状态迁移模型和汇总部的汇总状态迁移模型，所述状态迁移模型根据测量出的机器人的状态以及针对机器人的指令来预测机器人的下一状态，所述汇总部对预测结果进行汇总；指令生成部，其在每个控制周期执行如下的各处理：输入测量出的机器人的状态，生成针对机器人的指令的候选，取得根据机器人的状态以及针对机器人的指令的多个使用汇总状态迁移模型(20)预测的机器人的状态，生成使与所取得的状态对应的报酬最大化的指令并输出；以及学习部，其以使得与输出的指令对应地预测的机器人的下一状态和与下一状态对应的机器人的测量出的状态之间的误差变小的方式更新汇总状态迁移模型。

Description

学习装置及方法、学习程序、控制装置及方法、控制程序

技术领域

本发明涉及学习装置、学习方法、学习程序、控制装置、控制方法以及控制程序。

背景技术

在控制机器人的控制装置中，如果机器人能够自主地获得实现作业的控制规则，则能够节省人制作行动计划及控制装置的工夫。

在通过通常的运动学习方法获得了控制规则的情况下，为了在类似的其他作业中使用机器人，需要从白纸状态重新进行学习。

针对该问题，考虑使用使过去学习到的模型适应于其他领域的转移学习。

然而，将一般的转移学习直接应用于实际的机器人是不太现实的。这是由于，虽然是转移学习，但学习时间变长，关于对机器人的组装动作等伴随接触的作业的学习结果的转移困难等。

在非专利文献1中，公开了通过基于表现控制规则的网络的结合的再利用对控制规则进行直接学习的技术。

另外，在非专利文献2中，公开了通过实机学习对物体模型和投掷速度进行修正的技术。另外，在非专利文献2记载的技术中，没有物体间的学习完毕模型的转用。

在非专利文献3中，公开了通过神经网络对模型误差进行学习的技术。此外，在非专利文献3记载的技术中，没有考虑机器人的位置、角度、物体尺寸等与作业有关的较大的变化。

非专利文献1："MULTIPOLAR:Multi-Source Policy Aggregation for TransferReinforcement Learning between Diverse Environmental Dynamics",28Sep 2019,Mohammadamin Barekatain,Ryo Yonetani,Masashi Hamaya,<URL:https://arxiv.org/abs/1909.13111>

非专利文献2："TossingBot:Learning to Throw Arbitrary Objects withResidual Physics",27Mar 2019,Andy Zeng,Shuran Song,Johnny Lee,AlbertoRodriguez,Thomas Funkhouser,<URL:https://arxiv.org/abs/1903.11239>

非专利文献3："Residual Reinforcement Learning for Robot Control",7Dec2018,Tobias Johannink,Shikhar Bahl,Ashvin Nair,Jianlan Luo,Avinash Kumar,Matthias Loskyll,Juan Aparicio Ojea,Eugen Solowjow,Sergey Levine<URL:https://arxiv.org/abs/1812.03201>

发明内容

发明所要解决的课题

在非专利文献1所公开的技术中，由于无模型强化学习需要长时间的训练，因此存在难以应用于实机的问题。

另外，在非专利文献2所公开的技术中，由于专用于特定的作业而设计控制装置以及计划，因此存在难以转用于新作业的问题。

另外，在非专利文献3所公开的技术中，由于修正特定的作业的模型化误差，因此存在难以转用于新作业的问题。

本公开是鉴于上述的方面而完成的，其目的在于提供在机器人自主地获得实现作业的控制规则时能够在短时间内进行学习的学习装置、学习方法、学习程序、控制装置、控制方法以及控制程序。

用于解决课题的手段

本公开的第一方式是一种学习装置，其具备：制作部，其制作包含汇总部和多个状态迁移模型的汇总状态迁移模型，所述多个状态迁移模型根据测量出的控制对象的状态以及针对所述控制对象的指令来预测所述控制对象的下一状态，所述汇总部对所述多个状态迁移模型的预测结果进行汇总；指令生成部，其在每个控制周期执行如下的各处理：输入测量出的所述控制对象的状态，生成针对所述控制对象的指令或指令序列的多个候选，取得根据所述控制对象的状态以及针对所述控制对象的指令或指令序列的多个候选使用所述汇总状态迁移模型预测的所述控制对象的多个状态或状态序列，计算与所述控制对象的多个状态或状态序列分别对应的报酬，基于计算出的报酬生成使报酬最大化的指令并输出；以及学习部，其以使得与输出的所述指令对应地预测的所述控制对象的下一状态和与所述下一状态对应的所述控制对象的测量出的状态之间的误差变小的方式更新所述汇总状态迁移模型。

在上述第一方式中，也可以是，所述指令生成部在每个所述控制周期生成针对所述控制对象的指令或指令序列的1个候选，计算基于所生成的候选的报酬，以使报酬更大的方式将指令或指令序列的候选更新1次以上，由此生成所述指令或指令序列的候选。

在上述第一方式中，也可以是，所述指令生成部在每个所述控制周期生成针对所述控制对象的指令或指令序列的多个候选，之后，取得根据所述多个候选分别预测的所述控制对象的状态或状态序列。

在上述第一方式中，也可以是，所述汇总状态迁移模型是在所述汇总部中将所述多个状态迁移模型的输出按照针对各个所述输出的汇总权重进行统合的构造。

在上述第一方式中，也可以是，所述学习部更新所述汇总权重。

在上述第一方式中，也可以是，所述汇总状态迁移模型包含与所述多个状态迁移模型并列的误差补偿模型，所述学习部更新所述误差补偿模型。

本公开的第二方式是一种学习方法，其由计算机执行如下处理：制作包含汇总部和多个状态迁移模型的汇总状态迁移模型，所述多个状态迁移模型根据测量出的控制对象的状态以及针对所述控制对象的指令来预测所述控制对象的下一状态，所述汇总部对所述多个状态迁移模型的预测结果进行汇总；在每个控制周期执行如下的各处理：输入测量出的所述控制对象的状态，生成针对所述控制对象的指令或指令序列的多个候选，取得根据所述控制对象的状态以及针对所述控制对象的指令或指令序列的多个候选使用所述汇总状态迁移模型预测的所述控制对象的多个状态或状态序列，计算与所述控制对象的多个状态或状态序列分别对应的报酬，基于计算出的报酬生成使报酬最大化的指令并输出；以及以使得与输出的所述指令对应地预测的所述控制对象的下一状态和与所述下一状态对应的所述控制对象的测量出的状态之间的误差变小的方式更新所述汇总状态迁移模型。

本公开的第三方式是一种学习程序，其使计算机执行如下处理：制作包含汇总部和多个状态迁移模型的汇总状态迁移模型，所述多个状态迁移模型根据测量出的控制对象的状态以及针对所述控制对象的指令来预测所述控制对象的下一状态，所述汇总部对所述多个状态迁移模型的预测结果进行汇总；在每个控制周期执行如下的各处理：输入测量出的所述控制对象的状态，生成针对所述控制对象的指令或指令序列的多个候选，取得根据所述控制对象的状态以及针对所述控制对象的指令或指令序列的多个候选使用所述汇总状态迁移模型预测的所述控制对象的多个状态或状态序列，计算与所述控制对象的多个状态或状态序列分别对应的报酬，基于计算出的报酬生成使报酬最大化的指令并输出；以及以使得与输出的所述指令对应地预测的所述控制对象的下一状态和与所述下一状态对应的所述控制对象的测量出的状态之间的误差变小的方式更新所述汇总状态迁移模型。

本公开的第四方式是一种控制装置，其具备：存储部，其存储由第一方式的学习装置进行了学习后的汇总状态迁移模型；以及指令生成部，其在每个控制周期执行如下的各处理：输入测量出的所述控制对象的状态，生成针对所述控制对象的指令或指令序列的多个候选，取得根据所述控制对象的状态以及针对所述控制对象的指令或指令序列的多个候选使用所述汇总状态迁移模型预测的所述控制对象的多个状态或状态序列，计算与所述控制对象的多个状态或状态序列分别对应的报酬，基于计算出的报酬生成使报酬最大化的指令并输出。

本公开的第五方式是一种控制方法，由计算机执行如下处理：从存储由第一方式的学习装置进行了学习后的汇总状态迁移模型的存储部取得所述汇总状态迁移模型；在每个控制周期执行如下的各处理：输入测量出的所述控制对象的状态，生成针对所述控制对象的指令或指令序列的多个候选，取得根据所述控制对象的状态以及针对所述控制对象的指令或指令序列的多个候选使用所述汇总状态迁移模型预测的所述控制对象的多个状态或状态序列，计算与所述控制对象的多个状态或状态序列分别对应的报酬，基于计算出的报酬生成使报酬最大化的指令并输出。

本公开的第六方式是一种控制程序，其使计算机执行如下处理：从存储由第一方式的学习装置进行了学习后的汇总状态迁移模型的存储部取得所述汇总状态迁移模型；以及在每个控制周期执行如下的各处理：输入测量出的所述控制对象的状态，生成针对所述控制对象的指令或指令序列的多个候选，取得根据所述控制对象的状态以及针对所述控制对象的指令或指令序列的多个候选使用所述汇总状态迁移模型预测的所述控制对象的多个状态或状态序列，计算与所述控制对象的多个状态或状态序列分别对应的报酬，基于计算出的报酬生成使报酬最大化的指令并输出。

发明效果

根据本公开，在机器人自主地获得实现作业的控制规则时，能够在短时间内进行学习。

附图说明

图1是学习阶段中的机器人系统的结构图。

图2的(A)是表示机器人10的概略结构的图，(B)是将机器人的臂的末端侧放大的图。

图3是表示学习装置的硬件结构的框图。

图4是汇总状态迁移模型的结构图。

图5是表示已知模型组的图。

图6是用于说明构成栓(peg)的嵌入作业的操作原语(MP)的图。

图7是学习处理的流程图。

图8是表示学习处理的其他例子的流程图。

图9是运用阶段中的机器人系统的结构图。

具体实施方式

以下，参照附图对本公开的实施方式的一例进行说明。需要说明的是，在各附图中，对相同或等效的构成要素及部分标注相同的参照标号。另外，附图的尺寸比率有时为了便于说明而被夸张，有时与实际的比率不同。

图1表示学习阶段中的机器人系统的结构。在学习阶段中，机器人系统1具有机器人10、状态观测传感器30以及学习装置40。

(机器人)

图2的(A)、图2的(B)是表示作为控制对象的一例的机器人10的概略结构的图。本实施方式中的机器人10是6轴垂直多关节机器人，在臂11的末端11a经由柔软部13设置有夹具(手)12。机器人10进行通过夹具12把持部件(例如栓)来嵌入孔的嵌入作业。

如图2的(A)所示，机器人10具有具备关节J1～J6的6自由度的臂11。各关节J1～J6通过未图示的马达将连杆彼此以能够沿箭头C1～C6的方向旋转的方式连接。在此，列举了垂直多关节机器人为例，但也可以是水平多关节机器人(SCARA机器人)。另外，列举了6轴机器人为例，但也可以是5轴、7轴等其他自由度的多关节机器人，也可以是并联连杆机器人。

夹具12具有1组夹持部12a，控制夹持部12a来夹持部件。夹具12经由柔软部13与臂11的末端11a连接，伴随臂11的移动而移动。在本实施方式中，柔软部13由配置成各弹簧的基部成为正三角形的各顶点的位置关系的3个弹簧13a～13c构成，但弹簧的数量可以是任意数量。另外，柔软部13只要是相对于位置的变动产生复原力而得到柔软性的机构即可，也可以是其他机构。例如，柔软部13也可以是弹簧、橡胶那样的弹性体、阻尼器、气压或者液压缸等。柔软部13优选由被动要素构成。通过柔软部13，臂11的末端11a和夹具12构成为能够在水平方向和垂直方向上相对移动5mm以上，优选1cm以上，更优选2cm以上。

也可以设置能够切换夹具12相对于臂11的柔软的状态和固定的状态的机构。

另外，在此例示了在臂11的末端11a与夹具12之间设置柔软部13的结构，但也可以设置在夹具12的中途(例如指关节的位置或手指的柱状部分的中途)、臂的中途(例如关节J1～J6中的任意位置或臂的柱状部分的中途)。另外，柔软部13也可以设置于它们中的多个部位。

机器人系统1使用机器学习(例如基于模型的强化学习)来获得用于如上述那样进行具备柔软部13的机器人10的控制的模型。由于机器人10具有柔软部13，因此即使将把持的部件与环境接触也是安全的，另外，即使控制周期长也能够实现嵌入作业等。另一方面，由于柔软部13而夹具12以及部件的位置变得不确定，因此难以得到分析性的控制模型。因此，在本实施方式中，使用机器学习来获得控制模型。

若单纯地进行控制模型的机器学习，则需要非常多的数据收集，学习花费时间。因此，在机器人系统1中，针对将已经学习完毕的多个状态迁移模型汇总而成的汇总状态迁移模型20，详情后述。即，将已经学习完毕的多个状态迁移模型作为转移源的状态迁移模型，通过转移学习来制作将它们汇总而成的汇总状态迁移模型20。由此，与从头开始对状态迁移模型进行学习的情况相比，能够在短时间内进行学习。

(状态观测传感器)

状态观测传感器30观测机器人10的状态，将观测到的数据作为状态观测数据输出。作为状态观测传感器30，例如使用机器人10的关节的编码器、视觉传感器(照相机)、动作捕捉器、力关联传感器等。作为机器人10的状态，能够根据各关节的角度确定臂11的末端11a的位置/姿势，能够根据视觉传感器和/或力关联传感器估计部件(作业对象物)的姿势。在动作捕捉用的标记安装于夹具12的情况下，能够确定夹具12的位置、姿势作为机器人10的状态，能够根据夹具12的位置、姿势估计部件(作业对象物)的姿势。

力关联传感器是力传感器以及转矩传感器的总称，并且是在将传感器设置于与部件接触的部位的情况下还包括触觉传感器的总称。力关联传感器也可以设置于夹具12把持部件的部分的表面、夹具12内的关节部分，以检测机器人10的夹具从部件受到的力。在夹具12与臂11之间为柔软部的情况下，力关联传感器也可以设置于夹具12与臂11之间来检测作用于夹具12与臂11之间的力。力关联传感器例如是检测1个要素或多个要素的1轴、3轴或6轴的力作为机器人10的状态的传感器。通过使用力关联传感器，能够更高精度地掌握夹具12如何把持部件、即部件的姿势，能够进行适当的控制。

另外，通过视觉传感器，也能够将夹具12自身、夹具12所把持的部件的位置以及姿势检测为机器人10的状态。在夹具12与臂11之间为柔软部的情况下，通过检测夹具12相对于臂11的位移的位移传感器，也能够将夹具12相对于臂11的位置、姿势确定为机器人10的状态。

这样，通过各种传感器，能够检测柔软部13、比柔软部13靠把持对象物的一侧的机器人10的部位、以及所把持的部件中的至少任一方的状态，能够取得各种传感器的检测结果作为状态观测数据。

(学习装置)

学习装置40使用机器学习来获得机器人10的汇总状态迁移模型20。

由学习装置40获得的汇总状态迁移模型20搭载于控制机器人10的控制装置，用于实际作业。该控制装置也可以具有学习功能，在该情况下也可以进行追加的学习。

根据本应用例，由于机器人10具有柔软部13，因此不进行复杂的力控制，就容易一边使夹具12或者对象物与环境接触一边进行动作。另外，能够不怎么减速地使夹具或对象物与环境接触，因此能够进行高速的作业。另外，由于通过机器学习来获得学习模型，因此能够简便地进行系统构建。

图3是表示根据本实施方式的学习装置的硬件结构的框图。如图3所示，学习装置40是与一般的计算机(信息处理装置)同样的结构，具有CPU(Central Processing Unit：中央处理单元)40A、ROM(Read Only Memory：只读存储器)40B、RAM(Random Access Memory：随机存取存储器)40C、存储设备40D、键盘40E、鼠标40F、监视器40G以及通信接口40H。各结构经由总线40I以能够相互通信的方式连接。

在本实施方式中，在ROM 40B或存储设备40D中存储有用于执行学习模型的学习处理的学习程序。CPU 40A是中央运算处理单元，执行各种程序或控制各结构。即，CPU 40A从ROM 40B或存储设备40D读出程序，将RAM 40C作为作业区域来执行程序。CPU 40A按照记录在ROM 40B或存储设备40D中的程序，进行上述各结构的控制和各种运算处理。ROM 42存储各种程序和各种数据。RAM 40C作为作业区域暂时存储程序或数据。存储设备40D由HDD(Hard Disk Drive：硬盘驱动器)、SSD(Solid State Drive：固态驱动器)或闪存构成，保存包含操作系统的各种程序和各种数据。键盘40E及鼠标40F是输入装置的一例，用于进行各种输入。监视器40G例如是液晶显示器，显示用户界面。监视器40G也可以采用触摸面板方式，作为输入部发挥功能。通信接口40H是用于与其他设备进行通信的接口，例如使用以太网(注册商标)、FDDI或Wi-Fi(注册商标)等标准。

接下来，对学习装置40的功能结构进行说明。

如图1所示，学习装置40具有制作部42、学习部43以及指令生成部44作为其功能结构。各功能结构通过CPU 40A读出存储在ROM 40B或存储设备40D中的学习程序，在RAM 40C中展开并执行来实现。此外，一部分或者全部的功能也可以通过专用的硬件装置来实现。

制作部42制作汇总状态迁移模型20。如图4所示，汇总状态迁移模型20包括：多个状态迁移模型32，其基于测量出的作为控制对象的机器人10的状态以及针对机器人10的指令来预测并输出机器人10的下一状态；汇总部34，其对多个状态迁移模型32的预测结果进行汇总；以及误差补偿模型36。

多个状态迁移模型32是已经学习完毕的状态迁移模型，由制作部42从图5所示的已知模型组31所包含的学习完毕的多个状态迁移模型32中选择。在本实施方式中，对汇总状态迁移模型20包含由制作部42选择出的3个状态迁移模型32A～32C的情况进行说明，但状态迁移模型的数量不限于此，只要包含2个以上的状态迁移模型即可。制作部42将从已知模型组31选择出的状态迁移模型32A～32C、汇总部34以及误差补偿模型36组合来制作汇总状态迁移模型20。另外，已知模型组31可以存储在学习装置40内，也可以存储在外部服务器中。

学习部43更新汇总状态迁移模型20，使得与从指令生成部44输出的指令对应地预测的机器人10的下一状态和与下一状态对应的机器人10的测量到的状态、即由状态观测传感器30观测到的状态之间的误差变小。

指令生成部44具备最佳行动计算部45。最佳行动计算部45计算与机器人10的状态对应的最佳行动，将与计算出的行动对应的指令输出给机器人10。在最佳的行动的计算中，能够使用模型预测控制的方法。模型预测控制是利用控制对象的模型，在每个控制周期，基于将来的状态的预测求出报酬最大的最佳的指令值，使用该指令值来进行控制的方法。在本实施方式中，使用汇总状态迁移模型20作为控制对象的模型。

具体而言，最佳行动计算部45在每个控制周期从状态观测传感器30取得表示机器人10的状态x(t)的数据。在此，将取得的数据称为状态观测数据。状态观测数据例如包含能够确定夹具12或者由夹具12把持的部件的位置以及姿势的数据。最佳行动计算部45例如从包括关节的编码器、视觉传感器(照相机)、动作捕捉器、力关联传感器(力觉传感器、转矩传感器、触觉传感器)、位移传感器等的状态观测传感器30取得状态观测数据。

另外，最佳行动计算部45判定机器人10的动作是否满足规定的成功条件。如后所述，在本实施方式中，例如将栓的嵌入作业这样的1个作业(技能)分割为多个原语操作(MP)来进行学习。最佳行动计算部45判定是否满足对各MP决定的成功条件。成功条件的例子例如是栓位于孔附近(非接触)、栓与孔附近的表面接触、栓的末端与孔接触、栓与孔接触且与孔平行、栓完全嵌入孔等。最佳行动计算部45可以基于状态观测数据进行判定，也可以基于与状态观测数据不同的数据进行判定。

另外，最佳行动计算部45在每个控制周期执行如下各处理：生成针对作为控制对象的机器人10的指令的多个候选，取得根据机器人10的状态x(t)以及针对机器人10的指令的多个候选使用汇总状态迁移模型预测的机器人10的多个下一状态x(t+1)，计算与机器人10的多个下一状态x(t+1)分别对应的报酬，基于其结果生成并输出使报酬最大化的指令。指令有时也表现为行动u(t)。报酬例如是执行中的MP中的完成状态下的夹具12(或者栓54)的状态(目标状态)与当前的夹具12(或者栓54)的状态之间的距离越小，则报酬越大。也可以设定执行中的MP中的夹具12(或者栓54)的位置以及姿势的目标轨道，使用当前的夹具12(或者栓54)的位置以及姿势与目标轨道的误差越小则越大的报酬。

最佳行动计算部45也可以生成跨越多个时间步长的指令序列的多个候选。在该情况下，最佳行动计算部45也可以在针对根据各指令序列的第二个以后的时间步长的指令的候选预测的机器人10的状态也计算出对应的报酬的基础上，针对指令序列的每个候选计算各时间步长的指令的报酬的总和，将计算出的总和作为与各指令序列的候选对应的报酬。或者，也可以将与各指令序列的候选的最后的指令对应的报酬作为与各指令序列的候选对应的报酬。最佳行动计算部45也可以以使与指令序列对应的报酬最大化的方式生成指令序列。

即，最佳行动计算部45按每个控制周期执行如下各处理：生成针对作为控制对象的机器人10的指令或指令序列的多个候选，取得根据所述控制对象的状态以及针对所述控制对象的指令或指令序列的多个候选使用所述汇总状态迁移模型预测的所述控制对象的多个状态或状态序列，计算与所述控制对象的多个状态或状态序列分别对应的报酬，根据计算出的报酬生成使报酬最大化的指令并输出。

最佳行动计算部45也可以在每个控制周期生成针对作为控制对象的机器人10的指令或指令序列的1个候选，计算基于该候选的报酬，以使报酬更大的方式将指令或指令序列的候选更新1次以上，由此生成指令或指令序列的多个候选。

最佳行动计算部45也可以在每个控制周期生成针对作为控制对象的机器人10的指令或指令序列的多个候选，之后，取得根据多个候选分别预测的机器人10的状态或状态序列。

此外，如图1所示，在本实施方式中，将包含最佳行动计算部45以及汇总状态迁移模型20的结构称为策略46。策略46是指接收观测到的状态并返回应该进行的行动的存在(函数、映射、模块等)，有时也被称为对策、控制器。

状态迁移模型32是将状态x(t)和此时的行动u(t)作为输入，输出行动后的下一状态x(t+1)的模型。最佳行动计算部45将状态x(t)作为输入，生成应该采取的行动u(t)。最佳行动计算部45以使累积期待报酬最大化的方式生成应该采取的行动(指令)u(t)。最佳行动计算部45也可以针对用于生成应该采取的行动u(t)的模型进行学习。最佳行动计算部45基于所生成的行动u(t)，生成并发送针对机器人10的指令。

在此，对在本实施方式中能够利用的状态观测数据进行说明。状态观测数据的例子可以举出：夹具12的与对象物接触的部位的触觉分布(例如压力分布)的数据、由设置于夹具12的夹持部12a的力传感器测定的力、从机器人10的关节的编码器取得的各关节的角度以及角速度、施加于机器人10的关节的转矩、由安装于机器人10的臂的视觉传感器得到的图像、由力传感器测定的机器人10的柔软部13受到的力、由设置于柔软部13的位移传感器测定的夹着柔软部13的部位之间的相对位移、由动作捕捉器测定的夹具12的位置以及姿势。

根据来自关节编码器的数据，可求出关于臂11的末端11a的位置、姿势(角度)、速度、姿势的变化的角速度。此外，如果能够取得各时刻的位置以及姿势(角度)，则能够取得其时间变化(速度、角速度)，因此以下有时也省略对能够取得时间变化的提及。根据来自视觉传感器的数据，可求出夹具12以及把持对象物相对于臂11的位置以及姿势。根据来自力关联传感器的数据，也能够求出夹具12相对于臂11的位置以及姿势、或者把持对象物相对于夹具12的位置以及姿势。

另外，在夹具12安装有动作捕捉用的标记的情况下，能够仅通过动作捕捉数据来取得夹具12的位置以及姿势。把持对象物相对于臂的位置以及姿势也可以使用视觉传感器、力关联传感器来求出。另外，若在把持对象物也安装有标记，则也能够获取把持对象物的位置以及姿势。

(运动原语)

接着，对运动原语进行说明。在本实施方式中所学习的栓的嵌入作业被分割为多个动作区间，按每个区间进行控制模型的学习。该动作区间分别是运动原语(MotionPrimitive)。运动原语也被称为MP、原语操作。

参照图6，对构成本实施方式中的栓的嵌入作业的MP进行说明。在图6中，51表示臂末端，52表示夹具，53表示柔软部，54表示把持对象物(栓)，55表示孔。图6的标号56及57分别表示在各MP中考虑的状态及行动。

栓嵌入作业整体的目的是将栓54插入孔55。栓的嵌入作业被分割为接下来的5个MP，当与在各MP中指定的目标值的误差成为阈值以下时，转移到下一MP。

n1：接近

n2：接触

n3：匹配

n4：对准

n5：插入

“n1：接近”是使夹具52从任意的初始位置接近至孔55附近的动作。“n2：接触”是使栓54与孔55附近的表面接触的动作。在能够将柔软部53在固定模式和柔软模式之间切换的情况下，在接触前将柔软部53切换为柔软模式。“n3：匹配”是在保持栓54与表面接触的状态下使栓54移动而使栓54的末端嵌入孔55的末端的动作。“n4：对准”是在保持栓54的末端嵌入孔55而接触的状态下，使栓54的姿势与孔55平行(在本例中为垂直)的动作。“n5：插入”是将栓54插入至孔55的底部的动作。

在“n1：接近”以及“n2：接触”、即栓54不与表面接触的MP中，通过位置控制使栓54移动至目标位置即可。在“n3：匹配”、“n4：对准”、“n5：插入”、即维持栓54与环境接触的状态的MP(接触原语操作)中，通过基于机器学习的速度控制来控制夹具52以及栓54的位置。在接触MP的机器学习中，通过削减了状态空间以及行动空间的维度的学习处理针对汇总状态迁移模型20进行学习。

在此，设为夹具52以及栓54的移动在yz平面内进行来进行说明。在“n1：接近”MP中，将栓54的yz位置作为输入，进行yz面内的位置控制。在“n2：接触”MP中，将栓54的z位置作为输入，进行z方向的位置控制。

在“n3：匹配”MP中，通过环境约束和臂的柔软部53，能够进行不积极考虑z方向的模型的表现。状态可以是y方向的位置/速度，行动可以是y方向的速度指令。将栓54的末端嵌入孔55时的夹具52的位置设为目标值。

在“n4：对准”MP中，状态是夹具52的角度和角速度，行动是y方向的速度指令。柔软手腕能够进行6自由度(在yz二维平面上为3自由度)的位移，因此在栓54的末端与孔接触的状态下，仅通过y方向的平移运动就能够进行栓54的旋转运动。将栓54的姿势成为垂直时的夹具52的角度设为目标值。

在“n5：插入”MP中，状态是z方向的位置和速度，行动是y方向和z方向的速度指令位置。y方向的速度指令是为了避免栓54的阻塞(在插入中途变得无法移动)而导入的。将栓54到达孔55的底部时的夹具的位置设为目标位置。

(汇总状态迁移模型)

如图4所示，在本实施方式中，作为一例，汇总状态迁移模型20包含3个状态迁移模型32A～32C、汇总部34以及误差补偿模型36。

汇总状态迁移模型20是在汇总部34中对状态迁移模型32A～32C的输出按照关于各个输出的汇总权重进行统合的构造。在本实施方式中，汇总状态迁移模型20是在汇总部34中除了状态迁移模型32A～32C以外还对误差补偿模型36的输出按照关于各个输出的汇总权重进行统合的构造。另外，统合的方法可以是线性组合，也可以使用多层感知器(Multilayer Perceptron：MLP)等进行非线性的统合。另外，在线性组合的情况下，也可以使用户能够设定其权重的一部分。另外，误差补偿模型36是能够学习(能够更新)的模型，与统合参数同时被学习(residual learning)。另外，在状态迁移模型32A～32C能够学习(能够微分)的情况下，也可以与统合参数同时进行追加学习。

向状态迁移模型32A～32C、误差补偿模型36输入从最佳行动计算部45输出的指令。状态迁移模型32A～32C、误差补偿模型36将与所输入的指令对应的状态输出到汇总部34。汇总部34将所输入的状态汇总并输出到最佳行动计算部45和学习部43。

学习部43通过更新汇总权重、即针对来自状态迁移模型32A～32C以及误差补偿模型36各自的输出的权重来对汇总状态迁移模型20进行学习。具体而言，学习部43计算由状态观测传感器30测量出的状态与从汇总部34输出的预测到的状态之间的误差作为预测误差，计算使预测误差更小的汇总权重，在汇总部34中设定计算出的新的汇总权重，由此更新汇总部34。

另外，汇总状态迁移模型20与状态迁移模型32A～32C并列地包含误差补偿模型36，学习部43计算使预测误差更小的误差补偿模型36的模型参数，将计算出的新的模型参数设定于误差补偿模型36，由此更新误差补偿模型36。此外，在本实施方式中，对汇总状态迁移模型20包含误差补偿模型36的情况进行说明，但也可以设为不包含误差补偿模型36的结构。

状态迁移模型32A是已经在环境A中进行了学习的状态迁移模型。状态迁移模型32B是已经在与环境A不同的环境B中进行了学习的状态迁移模型32。状态迁移模型32C是已经在与环境A和环境B不同的环境C中进行了学习的状态迁移模型32。

在此，不同的环境是指机器人10执行目标作业的情况下的作业条件不同。作为不同的环境的一例，可举出机器人10所操作的部件的种类不同。具体而言，例如是机器人10所操作的栓54的形状、粗细以及长度中的至少一方不同的情况。另外，作为不同的环境的一例，可以举出机器人10操作的部件的组装对象的种类不同。具体而言，是供栓54插入的孔55的位置、方向以及形状中的至少一方不同的情况。

这样，汇总状态迁移模型20包含在各自不同的环境下已经进行了学习的状态迁移模型32A～32C。

(学习处理)

图7是表示学习装置40使用机器学习对汇总状态迁移模型20进行学习的学习处理的流程的流程图。图7所示的流程图是针对1个MP的学习处理，对各个MP应用该学习处理。

在步骤S100中，学习装置40制作要使用的汇总状态迁移模型20。即，制作部42从已知模型组31中选择状态迁移模型32A～32C，并组合汇总部34以及误差补偿模型36来制作汇总状态迁移模型20。

以下说明的步骤S102～步骤S110的处理按照控制周期以固定的时间间隔执行。控制周期被设定为能够执行步骤S102～步骤S110的处理的时间。

在步骤S101中，学习装置40进行待机直到从上次的控制周期开始起经过与控制周期的长度相当的规定时间为止。此外，也可以省略步骤S101的处理，在前一个控制周期的处理完成后立即开始下一个控制周期的处理。

在步骤S102中，学习装置40获取机器人10的状态。即，从状态观测传感器30取得机器人10的状态观测数据。具体而言，指令生成部44取得由状态观测传感器30观测到的夹具52的位置、速度、角度、角速度的数据作为状态观测数据。以下，将在步骤S102中取得的状态称为状态A。

在步骤S103中，学习装置40判定在步骤S102中取得的状态A是否满足预先确定的结束条件。在此，满足结束条件的情况是指例如状态A与目标状态之差在规定值以内的情况。

在步骤S103的判定为肯定判定的情况下，结束本例程。另一方面，在步骤S103的判定为否定判定的情况下，转移到步骤S104。

在步骤S104中，学习装置40以使得在上次的控制周期的步骤S110中使用汇总状态迁移模型20取得的机器人10的预测的状态C与在步骤S102中取得的机器人10的实测的状态A之间的误差今后变得更小的方式更新汇总状态迁移模型20。即，学习部43以使得与在上次的控制周期的步骤S110中输出的指令B对应地预测的机器人10的下一状态即状态C和与状态C对应的机器人10的测量出的状态A之间的误差变小的方式更新汇总权重。另外，在最初的控制周期中，跳过步骤S104的处理。

在步骤S105中，生成针对机器人10的指令或指令序列的1个候选。具体而言，最佳行动计算部45输入在步骤S102中测量出的机器人10的状态A，生成针对机器人10的指令或指令序列的1个候选。以下，将针对机器人10的指令或指令序列的1个候选称为指令A。指令A的生成例如能够使用牛顿法，但不限于此。此外，在最初的控制周期中，随机地生成指令A。然后，在第二个以后的控制周期中，以所生成的指令A来更新上次的指令A。

在步骤S106中，学习装置40预测机器人10的状态或状态序列。即，最佳行动计算部45将机器人10的状态A以及针对机器人10的指令A输出到汇总状态迁移模型20。由此，汇总状态迁移模型20预测与指令A对应的机器人10的下一状态，将预测出的状态或状态序列输出到最佳行动计算部45。由此，最佳行动计算部45取得预测到的状态或状态序列。以下，将预测到的状态或状态序列称为状态B。此外，在最佳行动计算部45中，在指令A是单独的指令的情况下，取得作为单独状态的状态B，在指令A是指令的序列的情况下，取得作为状态的序列的状态B。

在步骤S107中，学习装置40计算与状态B对应的报酬。

在步骤S108中，学习装置40判定在步骤S107中计算出的报酬是否满足规定条件。在此，满足规定条件的情况是指例如报酬超过规定值的情况、或者执行了规定次数的步骤S105～S108的处理的循环的情况等。规定次数例如设定为10次、100次、1000次等。

然后，在步骤S108的判定为肯定判定的情况下，转移到步骤S109，在步骤S108的判定为否定判定的情况下，转移到步骤S105。

在步骤S109中，学习装置40基于在步骤S107中计算出的与机器人10的状态或状态序列对应的报酬来生成并输出指令B。另外，指令B可以是报酬满足规定条件时的指令A本身，也可以是根据与指令A的变化对应的报酬的变化的履历预测的、能够进一步使报酬最大化的指令。另外，在指令A为指令序列的情况下，基于指令序列中的最初的指令来决定指令B。

在步骤S110中，学习装置40预测机器人10的状态或状态序列。即，最佳行动计算部45将机器人10的状态A以及针对机器人10的指令B输出到汇总状态迁移模型20。由此，汇总状态迁移模型20预测与指令B对应的机器人10的下一状态即状态C，将预测出的状态或状态序列输出到最佳行动计算部45。由此，最佳行动计算部45取得预测到的状态或状态序列。

这样，在每个控制周期重复步骤S101～S110的处理。

(学习处理的其他例子)

接着，参照图8所示的流程图对学习处理的其他例子进行说明。此外，对进行与图7相同的处理的步骤标注相同的附图标号，并省略详细的说明。

如图8所示，步骤S105A～S109A的处理与图7所示的处理不同。

在步骤S105A中，生成针对机器人10的指令或指令序列的多个候选。具体而言，最佳行动计算部45输入在步骤S102中测量出的机器人10的状态A，生成针对机器人10的指令或指令序列的多个候选(指令A)。在指令A的生成中，例如能够使用交叉熵法(cross-entropy method：CEM)，但不限于此。

在步骤S106A中，学习装置40预测机器人10的状态或状态序列。即，最佳行动计算部45将机器人10的状态A以及针对机器人10的指令A输出到汇总状态迁移模型20。由此，汇总状态迁移模型20预测与针对机器人10的指令或指令序列的多个候选的各候选对应的机器人10的下一状态，将预测出的状态或状态序列输出到最佳行动计算部45。由此，最佳行动计算部45取得针对各候选预测出的状态或状态序列(状态B)。

在步骤S107A中，学习装置40计算与各状态B对应的报酬。

在步骤S109A中，学习装置40基于在步骤S107A中计算出的与机器人10的各状态B分别对应的报酬来生成并输出使报酬最大化的指令B。例如，计算表示与各状态B对应的指令A与报酬的对应关系的关系式，将与由计算出的关系式表示的曲线上的最大的报酬对应的指令设为指令B。由此，得到使报酬最大化的指令。

(控制装置)

图9表示机器人系统1的运用阶段中的结构。在运用阶段中，机器人系统1具有机器人10和控制装置80。

控制装置80的硬件结构与学习装置40相同，因此省略重复的说明。控制装置80具有指令生成部44作为其功能结构。各功能结构通过CPU 40A读出存储在ROM40B或存储设备40D中的控制程序，在RAM 33中展开并执行来实现。此外，一部分或者全部的功能也可以通过专用的硬件装置来实现。

指令生成部44包含最佳行动计算部45以及汇总状态迁移模型20。汇总状态迁移模型20存储于作为存储部的一例的RAM 40C。此外，汇总状态迁移模型20也可以不存储于如RAM 40C那样暂时进行存储的存储部，而是存储于存储设备40D。另外，在汇总状态迁移模型20存储于外部服务器的情况下，可以从外部服务器下载并暂时存储于RAM 40C，也可以存储于存储设备40D。另外，也可以使用在学习装置40进行学习时在RAM 40C中展开的状态的汇总状态迁移模型20。

最佳行动计算部45使用由学习装置40学习完毕的汇总状态迁移模型20，生成与使机器人10进行的动作对应的指令。图9中的最佳行动计算部45与图1中的最佳行动计算部45的不同点仅在于使用学习完毕的汇总状态迁移模型20，因此省略此处的详细说明。

指令生成部44在判断为在“匹配”以后的接触MP中满足了当前的MP的成功条件的情况下，切换为生成与下一个MP对应的汇总状态迁移模型20以及应该采取的行动(指令)u(t)的模型。具体而言，在“匹配”成功的情况下，切换为与“对准”对应的汇总状态迁移模型20，在“对准”成功的情况下，切换为生成与“插入”对应的汇总状态迁移模型20以及应该采取的行动(指令)u(t)的模型。在“插入”成功的情况下，判定为栓54的嵌入作业完成。

此外，在各个MP中在预先决定的时间步长以内不满足结束条件的情况下、对机器人10施加了过剩的力的情况下、机器人到达了指定区域外的情况下，中断任务而返回初始状态。

控制装置80可以是与学习装置40不同的控制装置，也可以是构成学习装置40的一部分的控制装置。例如，也可以将学习中使用的学习装置40直接用作控制装置80，进行使用了学习完毕的汇总状态迁移模型20的控制。另外，控制装置80也可以一边继续进行学习一边进行控制。

这样，在本实施方式中，使用已经进行了学习的状态迁移模型32A～32C针对新的环境中的汇总状态迁移模型20进行学习，因此在机器人10自主地获得实现作业的控制规则时，能够在短时间内进行学习。

＜变形例＞

上述实施方式只不过是例示性地说明本公开的结构例。本公开并不限定于上述的具体的方式，能够在其技术思想的范围内进行各种变形。

在上述的例子中，以栓54的嵌入作业为例进行了说明，但学习以及控制对象的作业也可以是任意的作业。但是，本公开适合于包括夹具52自身或夹具52把持的部件与环境接触那样的动作的作业。另外，在上述的例子中，仅在把持对象物与环境接触的动作区间(MP)中进行汇总状态迁移模型20的学习，但也可以在把持对象物或夹具52不与环境接触的动作区间(MP)中也进行汇总状态迁移模型20的学习。另外，也可以不将作业分割为多个动作区间而进行汇总状态迁移模型20的学习。即，也可以不对从接近到插入完成进行分割，而执行图7或图8的流程图所示的处理。另外，该情况下的报酬例如是嵌入完成状态下的夹具12(或者栓54)的状态(目标状态)与当前的夹具12(或者栓54)的状态之间的距离越小则越大的报酬。该距离能够使用三维空间内的直线距离、位置/姿势的六维空间内的距离等。

此外，也可以由CPU以外的各种处理器执行在上述各实施方式中CPU读入软件(程序)而执行的学习处理以及控制处理。作为该情况下的处理器，例示FPGA(Field-Programmable Gate Array：现场可编程门阵列)等在制造后能够变更电路结构的PLD(Programmable Logic Device：可编程逻辑器件)、以及ASIC(Application SpecificIntegrated Circuit：专用集成电路)等具有为了执行特定的处理而专门设计的电路结构的处理器即专用电路等。另外，既可以通过这些各种处理器中的1个来执行学习处理以及控制处理，也可以通过同种或者不同种的2个以上的处理器的组合(例如，多个FPGA、以及CPU与FPGA的组合等)来执行学习处理以及控制处理。另外，更具体而言，这些各种处理器的硬件结构是组合了半导体元件等电路元件的电路。

另外，在上述各实施方式中，说明了学习程序以及控制程序预先存储(安装)于存储设备40D或者ROM 40B的方式，但并不限定于此。程序也可以以记录于CD-ROM(CompactDisk Read Only Memory：光盘只读存储器)、DVD-ROM(Digital Versatile Disk ReadOnly Memory：数字多功能光盘只读存储器)、以及USB(Universal Serial Bus：通用串行总线)存储器等记录介质的方式提供。另外，程序也可以设为经由网络从外部装置下载的方式。

需要说明的是，日本专利申请第2020-146401号的公开的整体通过参照而纳入本说明书。另外，关于本说明书中记载的所有文献、专利申请以及技术标准，以通过参照而取入为与具体且分别记载各个文献、专利申请以及技术标准的情况相同的程度，通过参照而取入到本说明书中。

标号说明

1：机器人系统；10：机器人；11：臂；11a：臂末端；12：夹具；12a：夹持部；13：柔软部；13a：弹簧；20：汇总状态迁移模型；22：存储装置；26：策略更新部；30：状态观测传感器；32A、32B、32C：状态迁移模型；34：汇总部；36：误差补偿模型；40：学习装置；41：输入部；42：制作部；43：学习部；44：指令生成部；45：最佳行动计算部；52：夹具；53：柔软部；54：栓；55：孔；80：控制装置。

Claims

1.一种学习装置，其具备：

制作部，其制作包含汇总部和多个状态迁移模型的汇总状态迁移模型，所述多个状态迁移模型根据测量出的控制对象的状态以及针对所述控制对象的指令来预测所述控制对象的下一状态，所述汇总部对所述多个状态迁移模型的预测结果进行汇总；

指令生成部，其在每个控制周期执行如下的各处理：输入测量出的所述控制对象的状态，生成针对所述控制对象的指令或指令序列的多个候选，取得根据所述控制对象的状态以及针对所述控制对象的指令或指令序列的多个候选使用所述汇总状态迁移模型预测的所述控制对象的多个状态或状态序列，计算与所述控制对象的多个状态或状态序列分别对应的报酬，基于计算出的报酬生成使报酬最大化的指令并输出；以及

学习部，其以使得与输出的所述指令对应地预测的所述控制对象的下一状态和与所述下一状态对应的所述控制对象的测量出的状态之间的误差变小的方式更新所述汇总状态迁移模型。

2.根据权利要求1所述的学习装置，其中，

所述指令生成部在每个所述控制周期生成针对所述控制对象的指令或指令序列的1个候选，计算基于所生成的候选的报酬，以使报酬更大的方式将指令或指令序列的候选更新1次以上，由此生成所述指令或指令序列的候选。

3.根据权利要求1所述的学习装置，其中，

所述指令生成部在每个所述控制周期生成针对所述控制对象的指令或指令序列的多个候选，之后，取得根据所述多个候选分别预测的所述控制对象的状态或状态序列。

4.根据权利要求1～3中的任一项所述的学习装置，其中，

所述汇总状态迁移模型是在所述汇总部中将所述多个状态迁移模型的输出按照针对各个所述输出的汇总权重进行统合的构造。

5.根据权利要求4所述的学习装置，其中，

所述学习部更新所述汇总权重。

6.根据权利要求1～5中的任一项所述的学习装置，其中，

所述汇总状态迁移模型包含与所述多个状态迁移模型并列的误差补偿模型，

所述学习部更新所述误差补偿模型。

7.一种学习方法，其由计算机执行如下处理：

制作包含汇总部和多个状态迁移模型的汇总状态迁移模型，所述多个状态迁移模型根据测量出的控制对象的状态以及针对所述控制对象的指令来预测所述控制对象的下一状态，所述汇总部对所述多个状态迁移模型的预测结果进行汇总；

在每个控制周期执行如下的各处理：输入测量出的所述控制对象的状态，生成针对所述控制对象的指令或指令序列的多个候选，取得根据所述控制对象的状态以及针对所述控制对象的指令或指令序列的多个候选使用所述汇总状态迁移模型预测的所述控制对象的多个状态或状态序列，计算与所述控制对象的多个状态或状态序列分别对应的报酬，基于计算出的报酬生成使报酬最大化的指令并输出；以及

以使得与输出的所述指令对应地预测的所述控制对象的下一状态和与所述下一状态对应的所述控制对象的测量出的状态之间的误差变小的方式更新所述汇总状态迁移模型。

8.一种学习程序，其使计算机执行如下处理：

9.一种控制装置，其具备：

存储部，其存储由权利要求1～6中的任一项所述的学习装置进行学习后的汇总状态迁移模型；以及

指令生成部，其在每个控制周期执行如下的各处理：输入测量出的所述控制对象的状态，生成针对所述控制对象的指令或指令序列的多个候选，取得根据所述控制对象的状态以及针对所述控制对象的指令或指令序列的多个候选使用所述汇总状态迁移模型预测的所述控制对象的多个状态或状态序列，计算与所述控制对象的多个状态或状态序列分别对应的报酬，基于计算出的报酬生成使报酬最大化的指令并输出。

10.一种控制方法，其由计算机执行如下处理：

从存储由权利要求1～6中的任一项所述的学习装置进行了学习后的汇总状态迁移模型的存储部取得所述汇总状态迁移模型；

在每个控制周期执行如下的各处理：输入测量出的所述控制对象的状态，生成针对所述控制对象的指令或指令序列的多个候选，取得根据所述控制对象的状态以及针对所述控制对象的指令或指令序列的多个候选使用所述汇总状态迁移模型预测的所述控制对象的多个状态或状态序列，计算与所述控制对象的多个状态或状态序列分别对应的报酬，基于计算出的报酬生成使报酬最大化的指令并输出。

11.一种控制程序，其使计算机执行如下处理：

从存储由权利要求1～6中的任一项所述的学习装置进行了学习后的汇总状态迁移模型的存储部取得所述汇总状态迁移模型；以及