CN117957550A

CN117957550A - 学习完成模型的构建方法

Info

Publication number: CN117957550A
Application number: CN202280060412.7A
Authority: CN
Inventors: 莲沼仁志; 山本武司; 仓岛一辉; 岸田步; 扫部雅幸
Original assignee: Kawasaki Jukogyo KK
Current assignee: Kawasaki Motors Ltd
Priority date: 2021-09-06
Filing date: 2022-09-05
Publication date: 2024-04-30
Also published as: WO2023033179A1; JP2023038132A

Abstract

学习完成模型的构建方法包括6个工序。在第一工序中收集用于机器学习人工操作控制对象机器的数据。在第二工序中评估所述收集的数据即收集数据，并且在不满足规定的评估基准的情况下重新收集数据。在第三工序中，从满足评估基准的所述收集数据中筛选训练数据。在第四工序中评估所述训练数据，并且在不满足规定的评估基准的情况下重新筛选训练数据。在第五工序中，通过使用满足评估基准的所述训练数据的机器学习来构建学习完成模型。在第六工序中评估所述学习完成模型，在不满足规定的评估基准的情况下使所述学习完成模型重新学习。

Description

学习完成模型的构建方法

技术领域

本公开涉及一种基于机器学习的学习完成模型的构建。

背景技术

以往，已知一种系统，其使用机器学习控制机器人的动作等，该机器学习是通过从收集数据中反复学习而自动地找出法则或规则，实现与人工自然进行的学习能力相同的功能。专利文献1公开这种系统。

在专利文献1的动作预测系统中，通过使动作预测模型机器学习操作员手动遥控操作机器人手臂进行工作时的数据，构建动作预测模型。机器人手臂根据动作预测模型的输出而自动运转。

[现有技术文献]

[专利文献]

专利文献1：日本特开2018-206286号公报

发明内容

发明所要解决的技术问题

例如，对于在专利文献1中构建的动作预测模型(学习完成模型)，可能需要评估其性能。但是，机器人手臂的自主动作，综合反映在诸如学习时用户进行的远程遥控作业的品质、所取得的训练数据的品质、所构建的学习完成模型的品质、基于学习完成模型的输出的自动动作的品质等多个方面。另外，每种品质常常相互影响其他的品质。因此，难以独立地评估每种品质。其结果，即使产生改进学习完成模型的需求，也不清楚该如何改进是好，从而被要求进行低效的试错。

有鉴于此，本公开的目的在于，有效地获得高性能的学习完成模型。

解决问题所使用的技术方案

本公开所欲解决的问题诚如上面的说明，下面对用于解决该问题的手段及其功效进行说明。

根据本公开的观点，提供下面的学习完成模型的构建方法。也就是说，学习完成模型的构建方法包括第一工序、第二工序、第三工序、第四工序、第五工序以及第六工序。在所述第一工序中，收集用于机器学习人工操作控制对象机器的数据。在所述第二工序中，评估所述收集的数据即收集数据，并且在不满足规定的评估基准的情况下重新收集数据。在所述第三工序中，从满足评估基准的所述收集数据中筛选训练数据。在所述第四工序中，评估所述训练数据，并且在不满足规定的评估基准的情况下重新筛选训练数据。在第五工序中，通过使用满足评估基准的训练数据的机器学习来构建学习完成模型。在所述第六工序中，评估所述学习完成模型，在不满足规定的评估基准的情况下使所述学习完成模型重新学习。

这样，通过在学习完成模型的构建前分阶段地进行工作，并在各阶段进行评估，容易在各工序中发现问题时锁定原因。由此，能够顺利构建学习完成模型。

发明功效

根据本公开，能够有效地获得高性能的学习完成模型。

附图说明

图1是显示本公开的一实施方式的机器人操作系统的结构的框图；

图2是说明操作信息的示意图；

图3是显示机器人进行的一系列工作的示例以及各工作状态的图；

图4是显示在筛选训练数据时向用户提示的信息的示例的图；

图5显示从收集数据中筛选训练数据的示例的图；

图6是显示执行部分地删除机器人根据学习完成模型的输出的动作的操作时的显示例的图；

图7是显示机器人基于学习完成模型的输出的动作在中途停滞的情况下的显示例的图；

图8是显示为了消除机器人的动作的停滞而追加了训练数据的情况下的显示例的图；

图9是说明学习完成模型的学习要素的验证的示意图；和

图10是显示构建学习完成模型并使机器人动作前的工作流程的流程图。

具体实施方式

下面，参照附图说明公开的实施方式。首先，参照图1等简单说明机器人操作系统100，机器人操作系统100使用通过本实施方式的方法构建的学习模型。图1是说明机器人操作系统100的示意图。图2是说明操作信息的示意图。图3是显示机器人11进行的一系列工作的示例以及各工作状态的图。

机器人操作系统100是构建学习模型31并根据该学习模型31的输出使机器人系统1动作的系统。机器人系统1通过学习模型31进行动作的结果，机器人11自主地进行工作。

机器人11进行的工作是任意的，例如可以考虑焊接、组装、加工、搬运、涂装、清洗、研磨等。

如图1所示，机器人系统1包括机器人控制装置10、机器人(控制对象机器)11以及操作装置12。每个装置经由有线或无线网络彼此连接，并且能够进行信号(数据)的交换。

机器人控制装置10由公知的计算机构成。机器人控制装置10具备：微控制器、CPU、MPU、PLC、DSP、ASIC或FPGA等运算处理部；ROM、RAM、HDD等机器人存储部；以及能够与外部装置通讯的通讯部。机器人存储部存储用于控制臂部等的控制应用程序等。

机器人控制装置10能够在手动运转模式与自主运转模式之间切换机器人11的运转模式。

在手动运转模式中，用户通过手动操作后述的操作装置12使机器人11动作。

在自主运转模式中，根据事先对机器人11通过手动操作的动作进行机器学习的结果，机器人11自动地动作。

机器人11例如被构成为动作自由度为6的垂直型多关节机器人。机器人11包括安装在基座上的臂部。臂部具有多个关节。在各关节上设置有省略图示的致动器(例如，电动机)，该致动器用于以该关节为中心驱动臂部。在臂部的前端安装有与工作内容相应的末端效应器。

机器人11的臂部以及末端效应器，根据用于使机器人11动作的动作指令进行动作。该动作指令例如包括直线速度的指令、角速度的指令等。

在机器人11上安装有传感器，该传感器用于检测机器人11的动作以及周围环境等。在本实施方式中，在机器人11上安装有动作传感器11a、力传感器11b、以及照相机11c。

动作传感器11a例如由编码器构成。动作传感器11a设置在机器人11的臂部的每个关节上，以检测各关节的旋转角度或角速度。

在机器人11动作时，力传感器11b检测施加在机器人11的臂部的各关节上、或安装在臂部前端的末端效应器上的力。力传感器11b也能够以代替力或者在力之外进一步检测力矩的方式构成。

照相机11c检测工作对象即工件81的影像(对工件81进行的工作的进展状况)。为了检测工作的进展状况，也能够代替照相机11c或在照相机11c之外设置检测声音的声音传感器以及/或检测振动的振动传感器。另外，也能够在机器人11等上设置激光扫描传感器、红外线扫描传感器等的收集距离信息的传感器。

动作传感器11a检测的数据，是显示机器人11的动作的动作数据，力传感器11b以及照相机11c检测的数据，是显示机器人11周围环境的状态的周围环境数据。该周围环境数据是一种所谓的状态值，显示机器人11在传感器检测数据的时刻的工作进展状态。动作传感器11a、力传感器11b以及照相机11c所检测的数据，作为状态信息通过后述的管理装置20收集。

操作装置12是用户为了使机器人11动作而操作的部件。操作装置12根据工作内容而不同，例如是用户手动操作的杠杆或以脚操作的踏板。操作装置12例如作为远程操作装置而构成，并且配置在与机器人11在物理上分离的位置上。

在操作装置12上设置有操作力检测传感器13。操作力检测传感器13检测用户施加在操作装置12上的力即用户操作力。在操纵装置12被以能够在各个方向上移动的方式构成的情况下，用户操作力也能够是包括力的方向以及大小的值、例如矢量。用户操作力不仅能够以用户施加的力的形式检测，还能够以与力联动的加速度(也就是说，用户施加的力除以操作装置12的质量而得的值)的形式检测。

在本实施方式中，操作力检测传感器13所检测的用户操作力，例如如图2所示，包括在机器人11的坐标系中的x轴上的力以及速度的分量(力x以及速度x)、和y轴上的力以及速度的分量(力以及速度y)。与操作力检测传感器13所检测的用户操作力相关的数据，作为操作信息通过管理装置20收集。

如图1所示，机器人操作系统100具备学习模型31。在机器人操作系统100中，例如，能够通过机器学习构建用于使机器人11执行一系列工作的学习模型31，该一系列工作用于将工件81插入部件的凹部82。

具体而言，用户对操作装置12进行操作，例如如下所示使机器人11动作。也就是说，在图3所示的动作OA中，在使机器人11保持工件的状态下，使工件81位于部件的上方，且使该工件81朝部件的表面接近。在动作OB中，在该状态下使工件81移动，使工件81与该部件的表面接触。在动作OC中，使工件81向凹部82的位置移动。再者，在工件81移动时，维持工件81与部件的表面接触的状态。在动作OD中，使工件81的端部与凹部82的内壁接触。在动作OE中，将工件81插入凹部82中。

这样，用户以机器人11按照从动作OA至动作OE的顺序动作的方式操作机器人11。通过学习在该过程中的状态信息与用户操作力的关系，机器人操作系统100能够构建学习模型31，该学习模型31可使机器人11按照从动作OA至动作OE的顺序自主动作。

如图1所示，本实施方式的机器人操作系统100除了机器人系统1之外，还具备管理装置20。

管理装置20例如由公知的计算机构成，具备：微控制器、CPU、MPU、PLC、DSP、ASIC或FPGA等运算处理部；ROM、RAM、HDD等机器人存储部；以及能够与外部装置通讯的通讯部。

机器人系统1与管理装置20经由有线或无线网络彼此连接，能够进行信号(数据)的交换。管理装置20也能够由在物理上与机器人系统1所具备的机器人控制装置10相同的硬件构成。

管理装置20包括数据收集部21、训练数据筛选部22、模型构建部23和动作数据记录部24。

数据收集部21从机器人系统1中收集数据。如上所述，数据收集部21从机器人系统1收集的数据，包括显示机器人11的周围环境数据的状态信息、以及反映与机器人11的周围环境数据对应的用户操作力的操作信息。下面，有时将数据收集部21收集的数据称为收集数据。

收集数据是在用户连续地操作操作装置12而使机器人11进行某个工作(或工作的一部分)的情况下所获得的一系列的状态信息以及操作信息的时间序列数据。也就是说，数据收集部21与时间相关联地收集各状态信息和各操作信息。例如，用户通过连续地操作操作装置12，使机器人11执行一次包括在图3中说明的5个动作OA～OE的一系列工作，由此获得1个收集数据。状态信息以及操作信息包括基于通过照相机11c以及操作力检测传感器13等获得的检测值的测量值。

数据收集部21具有判断收集数据是否满足预定的评估基准的评估功能。

对收集数据要求的条件，可考虑学习模型31的特征、对收集数据进行的预处理的内容等而任意确定。在本实施方式中，作为收集数据应满足的条件，规定有收集数据在时间序列上具有规定数以上的长度、且显示规定的操作的数据出现在时间序列的始端侧以及终端侧等。

数据收集部21根据预定的所述评估基准进行收集数据的长度的判断等。该判断例如不是通过使用机器学习的复杂工作，而是在所谓的规则库中进行。由此，能够简化处理，并且能够提高判断的实时性。

数据收集部21也能够计算显示收集数据适合用作训练数据的程度的值，且将该计算结果作为收集数据的有效度提示用户。有效度的计算例如能够以如下方式进行。也就是说，对收集数据应满足的各个条件预先定义分数。数据收集部21判断收集数据是否满足各条件，并求出与满足的条件对应的得分的合计值作为有效度。够根据有效度的计算结果，也能够判断收集数据是否满足评估基准。

向用户提示有效度，例如，能够通过在管理装置20具有的显示器(未图示)等的输出装置上显示有效度的数值而实现。也能够代替在显示器上显示数值，例如以显示的图形的颜色等表现有效度。

在收集数据不满足所需的条件的情况、或者所述有效度的值不良的情况下，数据收集部21能够向用户提示如何才能改进数据。改进方法的提示，例如能够通过在所述显示器上显示消息来实现。消息的内容任意，例如，能够是“装置的操作时间太短。”等文本消息。改进方法的提示不限于文本消息，也能够通过例如图标、声音、动画等的输出进行。

通过在参考关于这些改进的建议的同时反复进行操作，即使用户最初不习惯于操作，也能够容易熟悉操作，进而能以获得用作训练数据的良好的收集数据的方式操作操作装置12。

在收集数据满足规定的评估基准的情况下，数据收集部21将收集数据输出至训练数据筛选部22。

训练数据筛选部22对从数据收集部21输入的收集数据进行筛选，取得训练数据。

管理装置20包括省略图示的输入装置。输入装置例如由键、鼠标、触摸面板等构成。

用户通过输入装置指示是否将过去操作操作装置12时通过数据收集部21收集的收集数据作为机器学习的训练数据使用。由此，采用在收集数据中所选择的一部分数据作为训练数据。

在本实施方式中，通过用户的输入来决定从收集数据中选择训练数据。由此，能够将训练数据中使用的收集数据限定为用户所期待的数据。但是，训练数据筛选部22也能够自动地筛选收集数据。

例如，能够以如下的方式自动地筛选收集数据。为了评估收集数据，训练数据筛选部22具备通过机器学习构建的机器学习模型。该机器学习模型与学习模型31不同，是在比学习模型31早的时间构建。下面，有时将在训练数据筛选部22中构建的机器学习模型称为筛选模型41。

筛选模型41学习由数据收集部21收集的收集数据。在筛选模型41的训练阶段，使用适当的聚类方法将收集数据分类为多个组。再者，在收集数据包括多个工作状态的情况下，按每个工作状态分割进行分类。关于工作状态稍待后述。

聚类是从大量数据中学习分布的规律且自动取得多个簇的方法，多个簇是相互具有相似特征的数据集合。聚类例如能够使用公知的NN法、K-Means法、自组织映射等聚类方法进行。将收集数据中包括的工作状态分类为多个簇的数量能够适当地确定。分类也能够使用聚类以外的自动分类方法进行。

下面说明工作状态。在本实施方式中，例如，与通过数据收集部21收集的一系列工作相关的收集数据，是按照与工作状态对应的用户的每个操作(基准操作)进行分类。举其中一个例子，如图3所示，在使机器人11进行将工件81放入凹部82的一系列工作的情况下，例如，能够分类为空中、接触、插入以及完成的4个工作状态。

工作状态SA(空中)是机器人11保持工件81并使其位于凹部82的上部的状态。工作状态SB(接触)是使机器人11保持的工件81与形成有凹部82的表面接触的状态。工作状态SC(插入)是将机器人11保持的工件81插入凹部82的状态。工作状态SD(完成)是将机器人11保持的工件81完全插入凹部82的状态。

这样，4个工作状态是将机器人11进行的一系列工作按照工序进行分类而得。若机器人11的工作正确地进行，则工作状态按照工作状态SA(空中)、工作状态SB(接触)、工作状态SC(插入)、工作状态SD(完成)的顺序迁移。

筛选模型41学习的数据，例如能够是任意1个工作状态以及与该工作状态相对应的下一个工作状态(也就是说，下一个迁移的工作状态)、与至少1组状态信息以及与该状态信息相对应的用户操作力的组合。由此，筛选模型41能够学习工作状态的顺序以及对应的操作力的顺序。分类模型41的机器学习也能够说是数据的聚类。

所述工作状态SA、SB、SC、SD是代表工作状态，实际上能够存在多种多样不同的多个工作状态。假设通过操作者的操作使机器人11多次进行相同的工作，例如可考虑收集有与一组状态信息及操作力对应的工作状态SA1、与另一组状态信息及操作力对应的工作状态SA2、以及与另一组状态信息及操作力对应的工作状态SA3的情况。由于存在操作者的操作偏差、状况的偏差等，因此若细分的话这些工作状态SA1、SA2、SA3相互不同。但是，由于工作状态SA1、SA2、SA3具有共同的特征，因此被分类为同一簇(工作状态SA的簇)。

如上所述，筛选模型41以反映操作力的输出的时间顺序的方式进行机器学习。简单地说，筛选模型41学习与工作状态SA、工作状态SB、工作状态SC、工作状态SD分别对应的至少1组状态信息以及操作力的组合，并且还学习工作状态SB出现在工作状态SA之后这样的工作顺序。由此，能够使用筛选模型41进行反映操作力的时间序列信息的分类。也就是说，能够按工作顺序反映与各个工作状态相对应的各个操作力。

如上所述，该状态信息是动作传感器11a、力传感器11b、照相机11c所检测的传感器信息(例如，位置、速度、力、力矩、图象等的工作状态)。该状态信息也能够包括根据该传感器信息计算的信息(例如，显示从过去至现在的传感器信息的历时变化的值)。

完成了训练阶段的筛选模型41，能够在推论阶段中对与所输入的收集数据的时间序列信息相对应的状态信息，推论并输出与该状态信息对应的基准操作。筛选模型41例如能够输出基准操作所属的簇的信息，代替所估计的基准操作。此时，筛选模型41能够输出所输入的收集数据的操作信息与所估计的基准操作之间的相似度。相似度例如能够使用公知的欧氏距离进行定义。筛选模型41输出的相似度，能够作为用于评估收集数据的评估值进行利用。

如在图3中所作说明，在1个收集数据所示的机器人11的一系列工作中，工作状态依序迁移。鉴于这一情况，如图4所示，通过筛选模型41输出相似度，是在每个规定时间范围内对操作信息进行。具体说明的话，在收集数据中相对于规定的时间范围通过筛选模型41所输出的评估值为规定阈值以上的情况下，训练数据筛选部22对该时间范围内的收集数据赋予标签(对应信息)，该标签显示通过筛选模型41输出的基准操作所属的簇的信息。另一方面，在通过筛选模型41输出的评估值低于规定阈值的情况下，训练数据筛选部22在该时间范围内不赋予标签。

在图4中，由于收集数据中的规定时间范围内的操作信息与对应于工作状态SA的基准操作相似，因此显示对该操作信息赋予数值“1”的标签的例子。同样地，在图4中被赋予数值“2”、“3”、“4”的标签的时间范围，显示该时间范围内的操作信息与对应于工作状态SB、SC、SD的基准操作相似。图4还同时显示未赋予标签的时间范围。

收集数据中未被赋予标签的时间范围，是与筛选模型41所学习的工作状态的任一个均大不相同的状况，有时可能不适合将该收集数据作为训练数据。由此，训练数据筛选部22不采用该时间范围作为训练数据。另一方面，对于收集数据中被赋予了标签的时间范围，训练数据筛选部22采用作为训练数据。

筛选模型41输出的标签也能够不用于是否将收集数据用作训练数据的自动决定。例如，也能够作为用户手动决定是否采用收集数据作为训练数据时的参考信息，提示标签。图4显示向用户提示的画面的示例。在该示例中，以曲线表示的形式视觉地显示收集数据中包括的操作信息(例如，操作力)，并且作为1个区段显示时间序列信息连续且分配有相同数值的标签的数据部分。由此，用户能够更容易地进行是否采用收集数据作为训练数据的判断。

在本例中，在筛选模型41中采用聚类法。由此，在通过用户进行一系列的操作而得的收集数据中仅取出操作有效的一部分时间范围(区段)内的数据，变得容易将其作为训练数据采用。图5显示作为训练数据所采用的数据的示例。在图5的示例中，对于5个收集数据中的1个，全部作为训练数据采用，对于剩下的3个，仅采用附加了标签的多个区段中的一部分作为训练数据。

训练数据筛选部22具有对所筛选的训练数据进行评估的功能。评估的基准任意。例如，对训练数据的数量是否足够、或者与一部分工作状态对应的训练数据是否过少等进行评估。

在训练数据满足评估基准的情况下，训练数据筛选部22向模型构建部23输出训练数据。

模型构建部23通过机器学习(例如，监督学习)构建在机器人系统1中使用的学习模型31。下面，有时将完成了学习的学习模型称为学习完成模型。

为了构建学习模型31，模型构建部23使用从训练数据筛选部22输出的训练数据。如上所述，训练数据与对收集数据进行了筛选的数据对应。由此，训练数据与收集数据同样，至少包括反映机器人11的工作状态的周围环境数据(也就是说状态信息)、以及与该周围环境数据相对应的用户操作力(也就是说操作信息)。

学习模型31例如是普通构成的神经网络，该神经网络具有输入层、隐藏层和输出层。每层均配置有多个模拟脑细胞的单元。隐藏层设置在输入层与输出层之间，由适当数量的中间单元构成。在模型构建部23中被输入学习模型31中的状态信息(训练数据)按照输入层、隐藏层、输出层的顺序流动。隐藏层的数量能够适当确定。再者，学习模型31的形式不限于此，可任意。

在该学习模型31中，输入至输入层的数据是反映所述周围环境数据的状态信息。输出层输出的数据是操作力检测传感器13的检测值的估计结果。这实际上意味着所估计的用户操作力。由此，输出层输出的数据显示由学习模型31估计的用户的操作。

各输入单元与各中间单元通过供信息流动的路径结合，各中间单元与各输出单元通过供信息流动的路径结合。在每个路径中，设定有上游侧的单元的信息对下游侧的单元的信息产生的影响(权重)。

在学习模型31的训练阶段中，模型构建部23向学习模型31输入状态信息，比较从该学习模型31输出的操作力与用户的操作力。模型构建部23以通过该比较求出的误差变小的方式，例如通过公知的算法即误差逆传播法更新所述权重，从而更新学习模型31。

由于学习模型31不限于神经网络，因此学习模型31的更新也不限于误差逆传播法。例如，能够通过公知的算法即SOM(自组织映射)更新学习模型31。通过持续进行这样的处理以实现学习。

模型构建部23具有对所构建的学习模型31进行评估的功能。该评估的基准任意。例如，在向学习模型31输入有特定的状态信息的情况下，对是否输出设想的用户操作力等进行评估。也能够通过使用机器人11等的3维模型的模拟，进行工作时间以及使用电力等的评估。

关于学习模型31的评估，也能够以当模型构建部23使学习模型31在推论阶段动作时，一并提示作为学习模型31输出的推论的根据的训练数据的方式构成。由此，通过人等对学习模型31的评估变得容易。

例如，可以考虑不是通过神经网络，而是与所述的筛选模型41同样通过聚类构建学习模型31的情况。在训练阶段，每个训练数据被作为点标示在多维的特征量空间。对每个训练数据赋予能够唯一地确定该训练数据的识别信息。

若所有的训练数据被标示，则与筛选模型41同样，通过所述适当的聚类方法求出多个簇。接着，模型构建部23求出代表每个簇的数据。下面，有时将该数据称为节点。节点例如能够是在多维空间中与每个簇的重心相对应的数据。若对所有的簇求出节点，则完成训练阶段。

在学习模型31的推论阶段中，将某一时刻的状态信息输入学习模型31中。学习模型31求出具有与该状态信息相似的特征的一个或多个节点。相似度例如能够使用欧氏距离进行定义。

若求取具有接近状态信息的特征的节点，则学习模型31求出该节点的数据中包括的用户操作力(换句话说，操作力检测传感器13的检测值)。在检测出多个与状态信息相似的节点的情况下，适当地将多个节点的用户操作力合成。学习模型31输出所获得的用户操作力作为所述估计操作力。此时，学习模型31输出确定与该节点对应的训练数据的识别信息。由此，能够确定作为学习模型31的推论根据的训练数据。

例如，假设用户在所述模拟中，判明基于学习模型31的机器人11的动作中的一部分不理想，不打算进行该一部分的动作。图6显示在管理装置20的显示器上显示的模拟画面的例子。在模拟画面中显示有时间线，且沿着时间轴排列显示有与对机器人11在模拟中进行的一系列动作进行分类后的所述的工作状态对应的标签。用户操作适当的输入装置，以所述的区段为单位选择与想要删除的动作对应的时间范围(换句话说，工作状态)。于是，在显示器上醒目地显示训练数据中的与指定删除的动作对应的工作状态的部分(区段)。强调显示的方法任意。由此，用户能够直观地掌握删除的影响的大小，并且能够判断是否确实删除动作。

若用户指示删除动作，则从与学习模型31的学习结果对应的聚类结果中删除与指示删除的部分对应的训练数据的标示。然后，在学习模型31在推论阶段动作的情况下，输出基于另一训练数据的操作力，以代替引起不优选的动作的操作力。利用这种方式，能够部分地修正学习模型31的学习结果。

例如，在所述模拟中，假设发生了机器人11的基于学习模型31的动作停滞的状况。作为具体例，在图3中使工件81的端部与凹部82的内壁接触的动作OD中，由于工件81的位置与凹部82的位置不一致，因此不能与凹部82的内壁接触，因此机器人11不进行以后的动作而停止。图7显示机器人11的动作停滞的模拟结果的示例。

假设为了消除这种状况，用户打算追加一个或多个新的训练数据。该训练数据与其他训练数据同样进行一系列动作。但是，新的训练数据包括在所述动作OD之前，在使工件81与凹部82近旁的表面接触的状态下，以工件81的中心与凹部82的中心一致的方式在水平面内向各种方向些微移动的动作。

若用户指示追加新的训练数据，则在所述多维空间中的聚类结果中，追加该训练数据的标示。这与在学习模型31中进行追加学习相对应。

在学习模型31的追加学习之后，用户指示以与所述条件相同的条件再次进行模拟。假设在该模拟中，机器人11进行了在过往模拟中并无的新动作，其结果成功地进行了一系列动作。图8显示这种情况下的模拟结果的示例。在模拟结果的显示画面上，用户操作输入装置，在时间线上选择与新进行的动作对应的部分。根据该选择，只要前不久新追加的训练数据的对应部位被醒目地显示，则用户就能够判断为通过新追加的训练数据的贡献，已在模拟中消除了动作的停滞。

这样，在所述结构中，向用户提示删除或追加学习模型31的学习内容时的影响。其结果，用户能够安心地编辑学习模型31的学习内容。

在判断为学习模型31满足评估基准的情况下，模型构建部23向动作数据记录部24输出显示该内容的信息。

动作数据记录部24向机器人系统1传送学习模型31的输出，使机器人11自主动作，并且记录该动作数据。该动作数据例如用于机器人11的自主动作的验证。详细稍待后述，但也能够在之后的实际操作的场景中使用动作数据记录部24。

在动作数据记录部24输入有显示机器人11的周围环境数据的状态信息。动作数据记录部24向模型构建部23的学习模型31输出所输入的状态信息。学习模型31在推论阶段进行动作，其输出被输入机器人控制装置10。由此，能够使机器人11自主地动作。

当使学习模型31在推论阶段动作时，动作数据记录部24还能够按照每个动作记录该动作是否已验证。在该记录中，使用管理装置20所具备的适当的存储部。

下面详细进行说明。由于机器学习的性质，机器人11等的基于机器学习模型的机械动作难以通过事前的重复试验等全部再现其动作。因此，例如，在与所述同样地通过聚类构建学习模型31的情况下，动作数据记录部24被构成为以建立对应的方式存储对多维空间中的每个标示是否已验证。聚类中的每个标示均有可能被作为节点采用。如上所述，节点是指代表簇的数据。每个数据(标示)以及节点与学习模型31中的每个学习要素对应。

在图9中，以与构建学习模型31后进行的多个阶段的关系示意性地显示动作数据记录部24的存储内容的变化。

首先，说明动作试验阶段。在通过模型构建部23构建了学习模型31之后，使用实际的机器人11执行伴随一定数量的大量尝试次数的动作试验。

如上所述，在学习模型31的推论阶段中，将某个时刻的状态信息输入学习模型31中。在通过聚类构建学习模型31的情况下，学习模型31求出具有与该状态信息相似的特征的节点。

学习模型31具有多个节点，这些节点有可能在推论阶段中作为输出操作信息的根据。在图9中，节点由小椭圆示意性地表现。在管理装置20的存储部中，能够以表形式记录是否已经对每个节点执行了验证。但是，记录也能够以表以外的形式进行。下面，有时将在表中记录有进行了验证的情况的节点称为已验证节点，而将未记录的节点称为未验证节点。

在动作试验阶段，在将包括在该节点的数据中的操作信息作为推论结果输出的情况下，学习模型31向动作数据记录部24输出确定该节点的信息。下面，有时将该信息称为节点确定信息。作为节点确定信息，例如能够是与节点对应的训练数据的识别号码，但不限于此。

在开始动作试验之前，所有节点均处于未验证的状态。用户监视机器人11的基于学习模型31的输出的试验动作。用户判断机器人11的动作是否存在问题。在该判断中，用户能够以适当的方法参照动作数据记录部24记录的动作数据作为参考。

当判断为机器人11的动作不存在问题时，用户适当操作管理装置20的输入装置指示验证结束。由此，动作数据记录部24更新所述表，记录已对在试验动作中进行了输出的节点进行了验证的情况。在图9中，以附加阴影线的形式显示已验证的节点。

随着重复进行复机器人11的动作试验的试错，未验证节点减少，已验证节点的比例逐渐增加。但是，想要在动作试验阶段使所有的节点变为已验证节点实际上并不可能，不可避免地会在残留有未验证节点的状态下转移至操作阶段。

接着，说明操作阶段。在机器人11的操作阶段中也与所述的动作试验阶段同样，学习模型31在推论阶段动作。当某一时刻的状态信息被输入学习模型31时，学习模型31求出具有与该状态信息相似的特征的节点。

学习模型31向动作数据记录部24输出确定所求出的节点的所述节点确定信息。该节点确定信息的输出是在将包括在该节点的数据中的操作信息作为推论结果输出至机器人11之前进行。

动作数据记录部24根据从学习模型31输入的节点确定信息，并且参照所述表，判断想要输出操作信息的节点是否已验证。

在确定的节点是已验证节点的情况下，动作数据记录部24以机器人11根据学习模型31的该节点的输出进行动作的方式进行控制。

在确定的节点是未验证节点的情况下，动作数据记录部24搜索与未验证节点相似的已验证节点。该搜索与在聚类时标示有训练数据的多维特征空间中搜索距未验证节点位于规定的距离以内的已验证节点的情况对应。该距离与相似度对应，例如能够是欧氏距离。

在获得相似度为规定以上的已验证节点的情况下，比较与作为搜索结果的已验证节点的输出对应的操作信息以及与未验证节点的输出对应的操作信息。该比较例如也能够使用所述欧氏距离进行。

经比较的结果，可以认为在判断为2个输出的相似度为规定以上的情况下，即使假设使机器人11根据未验证节点的输出进行动作，也与过去已验证的动作无太大差异。因此，动作数据记录部24以机器人11根据未验证节点的输出进行动作的方式进行控制。优选所述是否已验证的判断、节点搜索以及输出的比较等处理是在机器人11的控制周期的时间内进行。

机器人11的基于未验证节点的输出的动作能通过用户适当地监视。在用户判断为不产生问题的情况下，与动作试验阶段同样，用户操作适当的输入装置，向管理装置20指示验证完成。相应地，动作数据记录部24更新所述表，记录已对该未验证节点进行了验证。这样，在本实施方式中，不仅能在动作试验阶段，而且在操作阶段也能够将未验证节点变更为已验证节点。

在操作阶段，机器人11也能够不基于未验证节点的输出本身进行动作。例如，动作数据记录部24也能够以合成了未验证节点与相似的已验证节点的输出使机器人11动作。输出的合成例如能够通过计算输出的平均值以及中央值进行。在重视防止无法预期的动作的情况下，动作数据记录部24也能够以利用相似的已验证节点的输出完全代替未验证节点的输出的方式进行控制。

在所述搜索处理中，也有可能搜寻不到与未验证节点相似的已验证节点。另外，即使在搜寻到相似的已验证节点的情况下，也存在未验证节点的输出与已验证节点的输出不相似的情况。在所述任一情况下，优选动作数据记录部24将学习模型31的输出强制地变更为为了机器人11的动作稳定而预先规定的输出。

例如，可以考虑在以消除主控机器人与从动机器人的力的差分的方式动作的主从控制中，使学习模型31学习主控机器人的操作的情况。在该结构中，在学习模型31想要输出基于未验证节点的操作信息的情况下，当无法搜索相似的已验证节点时，动作数据记录部24强制性且持续地将其后的学习模型31输出的用户操作力变更为零。其结果，由于主控机器人的操作输出成为零，因此从动机器人向外力变为零的方向动作。由此，从动机器人能够向外力变为零的稳定状态转移。

动作数据记录部24也能够以在检测出学习模型31想要输出基于未验证节点的操作信息的情况下输出警报的方式构成。警报例如能够通过在显示器上显示来进行，但也能够通过其他手段例如声音等进行通知。由此，用户能够早期掌握状况。

学习模型31也能够与有可能在推论阶段中作为输出操作信息的根据的每个节点相关联，不仅将是否已验证的信息，还将附加的信息存储在管理装置20的存储部中。作为该附加信息，例如能够考虑该节点是否为在追加学习中新追加的节点、是否为具有使机器人11以比规定大的力进行动作的输出的节点、是否在过去发生了工件81的损伤等。这些信息例如能够通过用户适当地操作管理装置20的输入装置进行登记。

动作数据记录部24例如在输出所述警报时向用户提示附加的信息。向用户的提示例如通过在显示器上的显示进行。由此，用户能够获得关于未验证的节点的有用信息，因此能够容易地对学习模型31的操作进行适当的判断。

如上所述，由于机器人11的基于机器学习模型的动作多种多样，因此难以验证所有的动作。特别是，在机器人11进行伴随如图3所示的力接触的工作的情况下，不可能事先对可能发生的状况全部进行测试。考虑到这一点，当学习模型31输出未记录已验证的动作时，动作数据记录部24例如以成为记录已验证的相似动作的方式强制改变学习模型31的输出。这样，在本实施方式的机器人操作系统100中，动作数据记录部24实质上作为模型输出控制部发挥作用，对学习模型31的输出进行干扰控制。由此，能够防止机器人11的无法预期的动作。

还能够考虑在操作阶段需要学习模式31的追加学习的情况。在这种情况下，用户操作操作装置12而追加新的训练数据。作为再次进行聚类的结果，向学习模型31追加新的节点。在图9中，以虚线显示追加的节点。追加的节点被作为未验证节点记录在所述表中。完成追加学习的工作后，返回动作试验阶段或操作阶段。若与所述同样完成对追加的节点的验证，则表中的该节点的记录从未验证变化为已验证。

接着，说明所述机器学习模型的构建流程。

在本实施方式中，如图10所示，从构建学习模型31至操作为止的工作流程被分为(A)收集数据的获取、(B)训练数据的筛选、(C)学习完成模型的构建、以及(D)动作数据的获取的4个阶段。在图10中，数字“1”～“8”显示第一工序至第八工序。在每个阶段进行评估，在不满足评估基准的情况下，如图10的虚线箭头所示，重新进行该阶段的工作。只有在判断为满足评估基准的情况下，才能转移至下一阶段的工作。

由此，每个阶段的评估是以在比其上游的工作中满足评估基准为前提而进行。因此，例如，在(C)阶段构建的学习模型不满足评估基准的情况下，基本上能够认为在比其上游的阶段中的工作不存在问题，但在学习完成模型的构建工作中存在问题。

在基于机器学习模型的机器的自主动作中存在问题的情况下，作为其原因，是在训练数据等上存在问题还是在学习完成模型的构建上存在问题，大多极难确定。在这一点上，在本实施方式中，由于在各阶段一边进行评估一边进行工作，因此容易锁定发现问题时的原因。由此，能够顺利地构建并操作机器学习模型。

由于各阶段的工作独立，因此例如容易由4个人分担进行4个阶段的工作，也能够明确每人的责任界限。

当然，也存在下面的情况，例如，在(C)阶段中所构建的学习完成模型不满足评估基准，其原因是因为在(B)阶段的评估中未被发现，但在训练数据的筛选上存在问题而被发现。在这种情况下，如图10中的二点点划线箭头所示，返回前一个阶段重新工作以及评估。利用该规则，可防止大量返工以提高工作效率。

(1)如上面说明，在本实施方式中，通过包括下面的6个工序的方法构建学习完成模型。在第一工序中，收集用于机器学习用户对机器人11的操作的数据。在第二工序中，评估所收集的数据即收集数据，在不满足规定的评估基准的情况下重新收集数据。在第三工序中，从满足评估基准的收集数据中筛选训练数据。在第四工序中评估训练数据，在不满足规定的评估基准的情况下重新筛选训练数据。在第五工序中，通过使用满足评估基准的训练数据的机器学习来构建学习完成模型。在第六工序中评估学习完成模型，在不满足规定的评估基准的情况下使学习完成模型重新学习。

这样，通过阶段性地进行工作，在各阶段进行评估，容易锁定在各工序中发现问题时的原因。由此，能够顺利地构建学习模型31。

(2)在本实施方式中，在第四工序中，假若训练数据不满足评估基准且所述收集的数据存在问题时，返回第一工序。在第六工序中，假若学习完成模型不满足评估基准且训练数据存在问题时，返回第三工序。但是，也能够代替第一工序而返回第二工序，也能够代替第三工序而返回第四工序。该特征至少能够与所述部分(1)中描述的特征组合。

在判明前一个阶段的工作存在问题的情况下，能够通过重新开始该阶段的工作而适当地解决问题。

(3)在本实施方式中，在第一工序中，当用户操作机器人11时，收集包括该操作的信息作为数据。在第二工序中，基于预定规则判定收集数据是否适合作为训练数据，并且将判定的结果提示用户。该特征至少能够与所述部分(1)或(2)中描述的特征组合。

由此，用户能够容易地理解收集数据是否适合作为训练数据。并且，能够实现处理的简化。

(4)在本实施方式中，当在第五工序中所构建的学习模型31在推论阶段动作时，确定并输出在该学习模型31的构建中所使用的作为学习模型31的输出根据的训练数据。该特征至少能够与所述部分(1)～(3)中的任一部分所描述的特征组合。

由此，例如，在用户想要编辑一部分学习模型31的学习结果的情况下，用户能够在一定程度上掌握该编辑的影响范围。由此，能够准确地改变以及删除一部分学习模型31的学习内容。

(5)在本实施方式中，在第七工序中，根据满足评估基准的学习模型31的输出使机器人11动作并且记录动作数据。在第八工序中评估动作数据，在不满足规定的评估基准的情况下进行机器人11的重新动作以及动作数据的重新记录。该特征至少能够与所述部分(1)～(4)中的任一部分所描述的特征组合。

通过在使机器人11实际动作前的每个阶段进行评估，容易锁定在各工序中发现问题时的原因。

(6)在本实施方式中，在第八工序中，假若动作数据不满足评估基准且学习模型31存在问题时，返回第五工序。但是，也能够代替第五工序而返回第六工序。该特征至少能够与所述部分(5)中描述的特征组合。

在判明在前一阶段的工作中存在问题的情况下，能够通过重新开始该阶段的工作来适当地解决问题。

(7)在本实施方式中，学习模型31包括多个学习要素。在例如通过聚类构建学习模型31的情况下，代表簇的数据即节点与学习要素对应。在第七工序中，在验证了机器人11的基于学习模型的输出的动作的情况下，对作为动作的根据的学习要素记录已验证。在学习模型的实际操作时，可将基于未验证的学习要素的学习完成模型的输出改变为预定输出或基于已验证的相似学习要素的输出。该特征至少能够与所述部分(5)或(6)中描述的特征组合。

由此，能够防止由于未验证的学习要素引起的机器人11的无法预期的动作。

(8)在本实施方式中，通过学习模型31使其自主动作的对象是机器人11。该特征至少能够与所述部分(1)～(7)中的任一部分所描述描述的特征组合。

由此，能够顺利地构建用于机器人11的自主操作的学习模型31。

以上说明了本公开的优选实施方式，但所述结构例如能够变更如下。变更能够单独进行，也能够任意组合多个变更而进行。

也能够省略图10中的第七工序以及第八工序，将所构建的学习模型31立即使用于实际操作。

第二工序中所示的收集数据的评估，也能够基于机器学习来执行而非基于所谓的规则。

在第二工序、第四工序、第六工序以及第八工序中，评估能够通过计算机进行，也能够人工进行。

管理装置20作为用于各种显示的输出装置，例如能够考虑液晶显示器，但也能够使用投影仪、头戴式显示器等。例如，在使用头戴式显示器的情况下，也能够利用公知的扩增实境(AR)进行显示。

学习完成模型所估计的操作信息，也能够代替用户操作力，例如设为用户操作操作装置12的操作速度或位置的变化量。学习完成模型也能够估计状态信息与对机器人11的控制信号的关系，来代替状态信息与操作信息的关系的估计。

所构建的学习模型31，也能够应用于机器人11以外的控制对象机器。

本说明书中公开的元件的功能，能够使用包括以执行所公开的功能的方式构成或编程的通用处理器、专用处理器、集成电路、专用集成电路(ASIC)、常规电路以及/或这些组合的电路或处理电路来执行。处理器因为包括晶体管或其它电路，因此被视作为是处理电路或电路。在本公开中，电路、单元或装置是执行所列举的功能的硬件、或者以执行所列举的功能的方式编程的硬件。硬件能够是在本说明书公开的硬件，或者也能够是以执行所列举的功能的方式被编程或构成的其它已知硬件。在硬件被认为是电路的一种的处理器的情况下，电路、装置或单元是硬件与软件的组合，并且软件被使用于硬件以及/或处理器的构成。

Claims

1.一种学习完成模型的构建方法，其包括：

第一工序，收集用于机器学习人工操作控制对象机器的数据；

第二工序，评估所收集的数据即收集数据，在不满足规定的评估基准的情况下重新收集数据；

第三工序，从满足评估基准的所述收集数据中筛选训练数据；

第四工序，评估所述训练数据，在不满足规定的评估基准的情况下重新筛选训练数据；

第五工序，通过使用满足评估基准的所述训练数据的机器学习来构建学习完成模型；和

第六工序，评估所述学习完成模型，在不满足规定的评估基准的情况下使所述学习完成模型重新学习。

2.根据权利要求1所述的学习完成模型的构建方法，其中，在所述第四工序中，假若所述训练数据不满足评估基准且所述收集数据存在问题时，返回所述第一工序或第二工序，

在所述第六工序中，假若所述学习完成模型不满足评估基准且所述训练数据存在问题时，返回所述第三工序或第四工序。

3.根据权利要求1所述的学习完成模型的构建方法，其中，在所述第一工序中，当用户操作所述控制对象机器时，收集包括该操作的信息作为数据，在所述第二工序中，基于预定规则判断所收集的数据是否适合作为所述训练数据，并向用户提示判断结果。

4.根据权利要求1所述的学习完成模型的构建方法，其中，当在所述第五工序中构建的所述学习完成模型在推论阶段动作时，确定并输出用于该学习完成模型的构建的所述训练数据，该训练数据是作为所述学习完成模型的输出的根据。

5.根据权利要求1所述的学习完成模型的构建方法，其中，包括下述工序：第七工序，根据满足评估基准的所述学习完成模型的输出使控制对象机器动作，并记录动作数据；和

第八工序，评估所述动作数据，在不满足规定的评估基准的情况下，进行所述控制对象机器的重新动作以及所述动作数据的重新记录。

6.根据权利要求5所述的学习完成模型的构建方法，其中，在所述第八工序中，假若所述动作数据不满足评估基准且所述学习完成模型中存在问题时，返回所述第五工序或第六工序。

7.根据权利要求5所述的学习完成模型的构建方法，其中，所述学习完成模型包括多个学习要素，

在所述第七工序中，在验证了基于所述学习完成模型的输出的所述控制对象机器的动作的情况下，对作为该动作的根据的所述学习要素记录已验证，在所述学习完成模型的实际操作期间，能够将基于未验证的所述学习要素的所述学习完成模型的输出改变为预定的输出、或基于已验证的所述学习要素的输出。

8.根据权利要求1所述的学习完成模型的构建方法，其中，所述控制对象机器是机器人。