CN114599488A

CN114599488A - 机器学习数据生成装置、机器学习装置、作业系统、计算机程序、机器学习数据生成方法及作业机的制造方法

Info

Publication number: CN114599488A
Application number: CN202080075227.6A
Authority: CN
Inventors: 太刀挂浩贵
Original assignee: Yaskawa Electric Corp
Current assignee: Yaskawa Electric Corp
Priority date: 2019-10-28
Filing date: 2020-10-23
Publication date: 2022-06-07
Also published as: JP7344977B2; EP4052869A4; WO2021085345A1; JPWO2021085345A1; WO2021084587A1; EP4052869A1; US20220234196A1

Abstract

提供了一种机器学习数据生成装置(1)，包括：虚拟传感器输入生成器(102)，被构造为生成虚拟传感器输入，所述虚拟传感器输入是基于虚拟对象模型，对要经受作业机(4)的操作机器(403)的物理作业的多个随机堆积的对象，通过所述作业机(4)的传感器执行感测，虚拟地生成传感器输入而获得的，所述虚拟对象模型是所述多个随机堆积的对象的虚拟模型；虚拟操作命令生成器，被构造为生成虚拟操作命令，所述虚拟操作命令是通过根据所述虚拟对象模型或所述虚拟传感器输入中的至少一个虚拟地生成用于所述作业机(4)的操作机器的操作命令而获得的；虚拟操作结果评价器(116)，被构造为评价所述作业机的操作机器在虚拟空间中响应于所述虚拟操作命令而执行的物理作业的结果；和机器学习数据生成器(106)，被构造为基于所述虚拟传感器输入、所述虚拟操作命令和所述虚拟操作结果评价器的评价生成机器学习数据。

Description

机器学习数据生成装置、机器学习装置、作业系统、计算机程序、机器学习数据生成方法及作业机的制造方法

技术领域

本发明涉及机器学习数据生成装置、机器学习装置、作业系统、计算机程序、机器学习数据生成方法以及作业机的制造方法。

背景技术

在专利文献1中，描述了一种机器学习装置，其构造为使得机器学习装置输出基于由三维测量装置拍摄的深度图像的控制指令，当基于控制命令的模拟的执行结果没有问题时，机器人基于控制命令执行作业，并且在出现问题时，停止向机器人输入控制命令并将结果标签提供给机器学习单元作为训练数据，以进一步执行学习。。

引文清单

专利文献

[PTL 1]JP 2017-185577 A

发明内容

技术问题

在作为对对象重复且连续地执行物理作业的自动机器的作业机中，为了利用机器学习执行取决于对象的操作，需要对应于现实中可能出现的对象的各种方式使用机器学习数据执行机器学习。然而，在物理作业的结果从对象和对对象所期望的操作中不明显的情况下，需要在现实中准备各种对象并实际操作真实的机器来执行机器学习。因此，在某些情况下需要巨大的努力和时间。

本发明是鉴于上述情况而完成的，因此其目的在于，在实际上不需要物理作业的情况下，获得反映物理作业的结果的机器学习数据。

问题的解决方案

根据本发明的一个方面，提供了一种机器学习数据生成装置，包括：虚拟传感器输入生成器，被构造为生成虚拟传感器输入，所述虚拟传感器输入是基于虚拟对象模型，对要经受作业机的操作机器的物理作业的多个随机堆积的对象，通过所述作业机的传感器执行感测，虚拟地生成传感器输入而获得的，所述虚拟对象模型是所述多个随机堆积的对象的虚拟模型；虚拟操作命令生成器，被构造为生成虚拟操作命令，所述虚拟操作命令是通过根据所述虚拟对象模型或所述虚拟传感器输入中的至少一个虚拟地生成用于所述作业机的操作机器的操作命令而获得的；虚拟操作结果评价器，被构造为评价所述作业机的操作机器在虚拟空间中响应于所述虚拟操作命令而执行的物理作业的结果；和机器学习数据生成器，被构造为基于所述虚拟传感器输入、所述虚拟操作命令和所述虚拟操作结果评价器的评价生成机器学习数据。

此外，在根据本发明的一个方面的机器学习数据生成装置中，所述虚拟操作结果评价器可以包括：模拟器，被构造为使用作为所述操作机器的虚拟模型的虚拟操作机器模型和所述虚拟对象模型，基于所述虚拟操作命令执行所述物理作业的计算机模拟；和实现状态评价器，被构造为基于计算机模拟的结果评价所述物理作业的对象的实现状态，以及所述机器学习数据生成装置可以被构造为使用所述实现状态作为所述虚拟操作结果评价器的评价。

此外，在根据本发明的一个方面的机器学习数据生成装置中，所述虚拟操作结果评价器可以包括干扰评价器，所述干扰评价器被构造为在虚拟空间中执行所述物理作业期间评价所述操作机器和所述虚拟对象模型之间是否存在干扰，以及所述机器学习数据生成装置可以被构造为使用干扰的存在或不存在作为所述虚拟操作结果评价器的评价。

根据本发明的另一方面，提供了一种机器学习数据生成装置，包括：虚拟传感器输入生成器，被构造为生成虚拟传感器输入，所述虚拟传感器输入是基于虚拟对象模型，对要经受作业机的操作机器的物理作业的对象，通过所述作业机的传感器执行感测，虚拟地生成传感器输入而获得的，所述虚拟对象模型是所述对象的虚拟模型；虚拟操作命令生成器，被构造为生成虚拟操作命令，所述虚拟操作命令是通过根据所述虚拟对象模型或所述虚拟传感器输入中的至少一个虚拟地生成用于所述作业机的操作机器的操作命令而获得的；模拟器，被构造为使用作为所述操作机器的虚拟模型的虚拟操作机器模型和所述虚拟对象模型，基于所述虚拟操作命令执行所述物理作业的计算机模拟；实现状态评价器，被构造为基于计算机模拟的结果评价所述物理工作的对象的实现状态；和机器学习数据生成器，被构造为基于所述虚拟传感器输入、所述虚拟操作命令和所述实现状态生成机器学习数据。

根据本发明的一个方面的机器学习数据生成装置还可以包括虚拟模型生成器，所述虚拟模型生成器被构造为针对所述多个随机堆积的对象的多个变体生成虚拟对象模型。

根据本发明的一个方面，提供了一种机器学习装置，包括：上述机器学习数据生成装置中的任一项；和学习单元，被构造为根据虚拟操作结果评价器的评价，基于机器学习数据，使操作命令生成神经网络模型进行学习，所述操作命令生成神经网络模型是输入传感器输入并且输出操作命令的神经网络。

在根据本发明的一个方面的机器学习装置中，所述学习单元可以包括学习允许/禁止确定器，所述学习允许/禁止确定器被构造为根据所述虚拟操作结果评价器的评价来确定利用所述机器学习数据的学习的允许/禁止。

在根据本发明的一个方面的机器学习装置中，所述学习单元可以包括学习方向确定器，所述学习方向确定器被构造为根据所述虚拟操作结果评价器的评价确定使用所述机器学习数据的学习是正方向的学习还是负方向的学习。

在根据本发明的一个方面的机器学习装置中，所述学习单元可以包括学习强度确定器，所述学习强度确定器被构造为根据所述虚拟操作结果评价器的评价利用所述机器学习数据确定学习强度。

在根据本发明的一个方面的机器学习数据生成装置中，所述虚拟操作命令生成器可以包括虚拟操作命令生成神经网络模型，所述虚拟操作命令生成神经网络模型是输入虚拟传感器输入并且输出虚拟操作命令的神经网络模型。

在根据本发明的一个方面的机器学习装置中，所述虚拟操作命令生成器可以包括虚拟操作命令生成神经网络模型，所述虚拟操作命令生成神经网络模型是输入虚拟传感器输入并且输出虚拟操作命令的神经网络模型。

在根据本发明的一个方面的机器学习装置中，所述虚拟操作命令生成神经网络模型可以与所述操作命令生成神经网络模型相同，或者所述虚拟操作命令生成神经网络模型可以通过在所述学习单元中学习的所述操作命令生成神经网络模型来更新。

根据本发明的一个方面，提供了一种作业系统，包括：上述机器学习装置中的任一项；和作业机，包括：操作机器；传感器；和操作命令生成器，包括由机器学习装置的学习单元学习的神经网络模型，来自所述传感器的传感器输入被输入到所述神经网络模型，并且从所述神经网络模型输出用于所述操作机器的操作命令。

根据本发明的一个方面，提供了一种计算机程序，用于使计算机作为机器学习数据生成装置进行操作，所述机器学习数据生成装置包括：虚拟传感器输入生成器，被构造为生成虚拟传感器输入，所述虚拟传感器输入是基于虚拟对象模型，对要经受作业机的操作机器的物理作业的多个随机堆积的对象，通过所述作业机的传感器执行感测，虚拟地生成传感器输入而获得的，所述虚拟对象模型是所述多个随机堆积的对象的虚拟模型；虚拟操作命令生成器，被构造为生成虚拟操作命令，所述虚拟操作命令是通过根据所述虚拟对象模型或所述虚拟传感器输入中的至少一个虚拟地生成用于所述作业机的操作机器的操作命令而获得的；虚拟操作结果评价器，被构造为评价所述作业机的操作机器在虚拟空间中响应于所述虚拟操作命令而执行的物理作业的结果；和机器学习数据生成器，被构造为基于所述虚拟传感器输入、所述虚拟操作命令和所述虚拟操作结果评价器的评价生成机器学习数据。

根据本发明的一个方面，提供了一种机器学习数据生成方法，包括：生成虚拟传感器输入，所述虚拟传感器输入是基于虚拟对象模型，对要经受作业机的操作机器的物理作业的多个随机堆积的对象，通过所述作业机的传感器执行感测，虚拟地生成传感器输入而获得的，所述虚拟对象模型是所述多个随机堆积的对象的虚拟模型；生成虚拟操作命令，所述虚拟操作命令是通过根据所述虚拟对象模型或所述虚拟传感器输入中的至少一个虚拟地生成用于所述作业机的操作机器的操作命令而获得的；评价所述作业机的操作机器在虚拟空间中响应于所述虚拟操作命令而执行的物理作业的结果；和基于所述虚拟传感器输入、所述虚拟操作命令和所述评价生成机器学习数据。

根据本发明的一个方面，提供了一种制造作业机的方法，所述作业机包括：操作机器，被构造为对多个随机堆积的对象执行物理作业；传感器，被构造为对所述多个随机堆积的对象执行感测以获得传感器输入；和操作命令生成器，被构造为将所述传感器输入输入到神经网络模型以获得用于所述操作机器的操作命令，所述方法包括：生成虚拟传感器输入，所述虚拟传感器输入是通过基于虚拟对象模型虚拟地生成所述传感器输入而获得的，所述虚拟对象模型是所述多个随机堆积的对象的虚拟模型；根据所述虚拟对象模型或所述虚拟传感器输入中的至少一个，生成通过虚拟地生成所述操作命令而获得的虚拟操作命令；评价所述作业机的操作机器在虚拟空间中响应于所述虚拟操作命令执行的物理作业的结果；基于所述虚拟传感器输入、所述虚拟操作命令和所述评价生成机器学习数据；和使所述神经网络模型基于所述机器学习数据进行学习。

附图说明

图1是用于说明根据本发明的实施方式所共有的概念的包括机器学习数据生成装置的机器学习装置的整体构造的功能框图。

图2是用于说明根据本发明的第一实施方式的包括机器学习数据生成装置的机器学习装置的整体构造的功能框图。

图3是用于说明机器学习数据生成装置和机器学习装置的硬件结构的示例的图。

图4是用于说明根据本实施方式的机器学习数据生成装置和机器学习装置中假定的作业机的示例的外观图。

图5是用于说明图4所示的作业机的功能部件的构造图。

图6是用于说明本发明的第一实施方式中的虚拟模型生成器的示例详细构造的构造图。

图7是用于说明VAE的图。

图8是用于说明本发明的第一实施方式中的虚拟传感器输入生成器的示例构造的构造图。

图9是用于说明GAN的图。

图10是用于说明由机器学习数据生成装置生成的机器学习数据的结构造的示例的图。

图11是用于说明学习单元的构造的构造图。

图12是用于说明过滤器的各种形状的示例的图。

图13是根据本发明的第一实施方式的机器学习数据生成装置和机器学习装置执行的机器学习数据生成方法和机器学习方法的流程图。

图14是用于说明根据本发明的第二实施方式的包括机器学习数据生成装置的机器学习装置的整体构造的功能框图。

图15是用于说明根据本发明的第三实施方式的包括机器学习数据生成装置的机器学习装置的整体构造的功能框图。

图16是用于说明根据本发明的第三实施方式的与包括机器学习数据生成装置的机器学习装置相关的物理作业的内容的图。

图17示出了给予虚拟操作命令生成器的目标值的示例。

图18是用于说明作为生成的虚拟操作命令的目标值的示例的图。

图19是用于说明如何评价虚拟空间中的干扰有无的图。

图20是用于示意性地说明通过在目标值中加入评价而得到的回答数据的示例的图。

图21是用于说明使用两个截面来评价干扰有无的方法的图。

图22是用于说明作业机的制造步骤的流程图。

具体实施方式

本发明设想了各种实施方式，以下以与这些方式对应的实施方式为例进行说明，但首先，描述实施方式所共有的概念的概要。

图1是用于说明根据本发明的实施方式所共有的概念的包括机器学习数据生成装置1的机器学习装置2的整体构造的功能框图。

机器学习数据生成装置1包括：虚拟模型生成器101，生成多个随机堆积对象的虚拟对象模型，这些对象要经受作业机的操作机器进行的物理作业；虚拟传感器输入生成器102，基于虚拟对象模型，生成虚拟传感器输入，该虚拟传感器输入是通过作业机的传感器虚拟地生成作为执行感测的结果获得的传感器输入而获得的；虚拟操作命令生成器103，根据虚拟对象模型或虚拟传感器输入中的至少一个，生成虚拟操作命令，该虚拟操作命令是通过虚拟生成用于作业机的操作机器的操作命令而获得的；虚拟操作结果评价器116，评价作业机的操作机器在虚拟空间中响应于虚拟操作命令而执行的物理作业的结果；机器学习数据生成器106，基于虚拟传感器输入、虚拟操作命令和虚拟操作结果评价器116的评价生成机器学习数据。

除了上述的机器学习数据生成装置1之外，机器学习装置2还包括学习单元201。

以上作为功能块描述的机器学习装置2的功能的细节在实施方式的以下描述中变得清楚。

接下来，参照图2至图13描述根据本发明的第一实施方式的机器学习数据生成装置、机器学习装置、计算机程序和机器学习数据生成方法。

图2是用于示出根据本发明的第一实施方式的包括机器学习数据生成装置1的机器学习装置2的整体构造的功能框图。这里使用的术语“机器学习数据生成装置”是指生成机器学习数据的装置，机器学习数据是在执行监督学习的机器学习模型中的学习中使用的教师数据，并且术语“机器学习装置”是指使用机器学习数据执行机器学习模型的学习的装置。

机器学习数据生成装置1和机器学习装置2可以作为独立的装置物理地提供，但不限于此，可以并入作为其他机器或装置的一部分，或者可以根据需要使用其他机器或装置的物理部件适当地构造。更具体地，机器学习数据生成装置1和机器学习装置2可以通过使用通用计算机的软件实现，并且用于使计算机作为机器学习数据生成装置1和机器学习装置2操作的计算机程序可以相互集成，可以独立执行，或者进一步可以作为模块并入其他软件中。替代地，机器学习数据生成装置1和机器学习装置2可以构建在所谓的服务器计算机上，并且可以通过公共电信线路例如互联网仅将其功能提供给远程站点。

图3是用于说明机器学习数据生成装置1和机器学习装置2的硬件构造的示例的图。该图示出了通用计算机3，其中作为处理器的中央处理单元(CPU)301、作为存储器的随机存取存储器(RAM)302、外部存储装置303、图形控制器(GC)304、输入装置305和输入/输出(I/O)306通过数据总线307连接，以便可以在它们之间交换电信号。上述计算机3的硬件构造仅仅是示例，并且可以采用其他构造。

外部存储装置303是其中可以静态记录信息的装置，例如，硬盘驱动器(HDD)或固态驱动器(SSD)。此外，来自GC 304的信号被输出到监视器308，例如阴极射线管(CRT)或所谓的平板显示器，用户在监视器308上视觉识别图像，并且信号被显示为图像。输入装置305是供用户输入信息的一个或多个装置，例如键盘、鼠标、触摸屏，I/O 306是被计算机3用来与外部装置交换信息的一个或多个接口。I/O 306可以包括用于有线连接的各种端口，以及用于无线连接的控制器。

用于使计算机3用作机器学习数据生成装置1和机器学习装置2的计算机程序存储在外部存储装置303中，并且根据需要由RAM 302读出并由CPU 301执行。换言之，RAM 302存储用于实现如图2中的功能块所示的由CPU 301执行的各种功能的代码。这样的计算机程序可以通过记录在适当的光盘或磁光盘或适当的计算机可读信息记录介质(例如，闪存)上来提供，或者可以通过外部信息通信线路例如因特网经由I/O 306提供。

返回图2，机器学习数据生成装置1包括虚拟模型生成器101、虚拟传感器输入生成器102、虚拟操作命令生成器103、模拟器104、实现状态评价器105和机器学习数据生成器106作为其功能部件。此外，机器学习装置2包括机器学习数据生成装置1和学习单元201。

机器学习数据生成装置1准备对应于执行物理作业的特定作业机，具有与作业机密切相关的功能。此外，机器学习装置2对作业机使用的机器学习模型执行学习。

如在本申请中使用的术语“物理作业”是指对对象施加一些物理动作的作业。物理作业包括各种作业，例如，拾取部件和零件，安装部件(例如，将轴承插入外壳，或拧紧螺钉)，包装(例如，糖果或其他此类食品的盒包装)、各种加工(例如，去毛刺、研磨或其他此类金属加工，食品或其他此类软质物体的成型或切割、树脂模塑或激光加工)、涂层和清洁。更进一步，术语“作业机”是指重复和连续地执行等效或类似的物理作业的自动机器。

根据本实施方式的机器学习数据生成装置1和机器学习装置2被构建为具体对应于执行特定物理作业的作业机。物理作业是什么作业，作业机在什么用途中使用，没有特别限定，但为了便于理解以下描述，图4示出了根据本实施方式的机器学习数据生成装置1和机器学习装置2中假定的作业机的示例。

图4是用于说明根据本实施方式的机器学习数据生成装置1和机器学习装置2中假定的作业机4的示例的外观图。在该示例中，作业机4是通过作业机403(机器人)夹持对象402(放入作为托盘的架子401中的炸鸡块)并搬运对象到另一个步骤(未示出；例如，包装在容器中)的机械设备。对象402的位置和形状由作为视频拍摄装置的传感器404捕获为图像数据，并且操作机器403的操作由控制器405基于图像数据控制。

在本申请中，术语“对象”是指要经受物理作业的物理实体。此外，放置对象402的架子401不限于托盘，可以是与物理作业或对象402对应的任何架子，例如输送机、料斗、自动虎钳、自动行驶车。传感器404提供用于对对象402执行一些感测以获得传感器输入，该传感器输入是操作机器403执行物理作业所需的信息。传感器404也可以是对应于物理作业或对象的任何传感器，并且可不一定是如本示例中那样提供图像数据作为传感器输入的传感器。操作机器403是包括当对对象402执行物理作业时对对象施加物理动作的动作端的机器，并且准备了对应于物理作业的机器。在图4所示的示例中，例示了通用的垂直多关节机器人作为操作机器403，但作为操作机器403不一定使用所谓的工业机器人。

图5是用于说明图4所示的作业机4的功能部件的构造图。在图中，对象402不是构成作业机4的要素，因此用虚线表示。如图5所示，传感器404对架子401上的对象402进行感测，并将作为感测结果获得的传感器输入输入到控制器405。此外，操作机器403对对象402执行物理作业。

控制器405具有控制操作机器403基于传感器输入执行物理作业所需的各种功能，并且在这些功能中，图5示出了作为操作命令生成器406具有生成操作机械403的操作命令的功能的部分，以及作为操作机器控制单元408具有通过向操作机器403供给适当的电力等来控制操作机器403的功能的部分。

操作命令是指根据传感器404检测到的对象402的状态而变化的对操作机器403的操作命令。当对象402如本示例那样是无定形的软炸鸡时，操作命令可以是用于操作机器403的夹持的目标坐标(机械手的目标位置和目标角度)和夹持力(和/或机械手的夹紧量)，或者还可以包括机械手的移动路径和其他命令。操作机器控制单元408在本示例中是具有与所谓的机器人控制器对应的功能的部分，根据操作命令执行操作操作机器403所需的电力供给和反馈控制。

换言之，此处使用的术语“操作命令”可不一定指由操作机器控制单元408执行以操作操作机器403的指令本身，而可以是用于生成这样的指令的间接命令。上述目标坐标是其代表性示例。

当对象402不仅在架子401上的位置和姿势不明确，而且具有不定形的形状，并且如本示例中那样还具有柔软性时，难以通过确定性算法获得适当的操作命令。众所周知，对于通过确定性算法难以获得合适回答的问题，存在通过在适当设计的机器学习模型上使用机器学习来利用合适的机器学习数据学习以高概率获得合适回答的情况。因此，本示例中的操作命令生成器406包括作为机器学习模型的神经网络模型407，使得传感器输入根据需要经过适当的预处理后输入到神经网络模型407，并且获得操作命令作为输出。神经网络模型407可能已经通过所谓的深度学习方法学习。

如上所述，在作业机4中，通过包括已经适当学习的神经网络模型407的操作命令生成器406生成操作命令，从而获得用于对难以通过确定性算法获得合适的操作命令的对象402执行高概率物理作业的操作命令。

然而，正如通过本示例中描述的炸鸡示例可以容易地理解的那样，实际上要准备足够数量的合适的机器学习数据集来引起操作命令生成器406的神经网络模型407充分学习并不容易。这是因为，在该示例中，实际准备机器学习数据仅意味着准备足够数量的具有各种形状和大小的对象402，即炸鸡块，用于机器学习。此外，如果准备好对象402，则不可能或难以通过确定性算法获得对对象402的适当操作命令，因此需要使操作机器403对每个对象402进行操作，并且评价操作结果以获得机器学习数据。然而，要获得足够数量的机器学习数据集需要太多的时间和成本，因此这样的操作是不现实的。

根据本实施方式的机器学习数据生成装置1被构造为通过上述作业机4虚拟地对对象402执行物理作业，从而利用现实时间和成本生成足够数量的用于神经网络模型的机器学习数据集。此外，根据本实施方式的机器学习装置2被构造为使神经网络模型利用如此生成的机器学习数据进行学习。

再次返回图2，详细描述机器学习数据生成装置1和机器学习装置2的功能块。

首先，虚拟模型生成器101是用于为对象402的多个变体生成虚拟对象模型的部分。这里，对象402是如上所述的要经受预期的物理作业的物理实体，并且其形状、大小和物理特性不一定是恒定的，并且具有一些不均匀性。虚拟模型生成器101生成由这种不均匀性引起的大量对象402的变化作为虚拟模型，而不产生现实中的对象。生成的对象402的虚拟模型在下文中被称为“虚拟对象模型”。虚拟对象模型用于后述的模拟器104中的模拟，因此需要是具有执行这种模拟所需的信息的模型。在本示例中，虚拟对象模型是确定了形状和大小、并进一步设定了诸如重量(比重)、弹性模量、摩擦系数的物理特性的三维模型。

图6是用于示出本实施方式的虚拟模型生成器101的示例详细构造的构造图。在该示例中，虚拟模型生成器101使用称为变分自动编码器(VAE)的技术。为此，虚拟模型生成器101包括由VAE获得的解码器107。

由潜变量生成器108生成的潜变量“z”被输入到解码器107。潜变量“z”是向量，并且其维数可以是几十到几百维，尽管维数取决于对象402的复杂度。本示例中的潜变量生成器108被构造为根据正态分布N随机生成潜变量“z”。

解码器107是神经网络，其输出与输入潜变量“z”相对应的对象402的三维模型X^。结果，随机地生成对象402的三维模型X^。

此外，特征量生成器109根据正态分布N随机地生成每个虚拟对象模型的物理特性C(在此含义中，重量、弹性模量、摩擦系数等)。在组合器110中，生成的三维模型X^和物理特性C组合起来，生成并输出虚拟对象模型。

现在，参考图7，简要描述VAE。VAE本身是已知的，因此最少地给出其描述。

VAE 5具有图7所示的构造，包括称为编码器501和解码器502的两个神经网络。编码器501接收数据X的输入，并输出潜变量“z”。换句话说，可以说具有大量信息的数据X被压缩为具有较少维数的潜变量“z”，着眼于其固有特征。然后，潜变量“z”被设计为遵循VAE中的正态分布N。

解码器502接收潜变量“z”的输入，并输出重构数据X^。然后，编码器501和解码器502中的每一个学习使得数据X和重构数据X^匹配。关于本示例，数据X为真实对象402的三维数据，例如通过三维扫描或另一方法将真实炸鸡的形状和大小数字化而获得。换言之，使得编码器501和解码器502使用具有不同形状的一些可行数量的对象402的数据X来预先学习。

潜变量“z”遵循正态分布N，因此当不使用编码器501而随机生成的潜变量“z”被输入到解码器502时，生成重构数据X^，就好像对象402真实存在一样。因此，在图6所示的虚拟模型生成器101中，如此学习的解码器107用于生成三维模型X^作为重构数据。

返回图2，虚拟传感器输入生成器102基于虚拟对象模型生成虚拟传感器输入。这里，传感器输入是通过如上面参照图4所述的传感器404感测对象402而获得的信息，虚拟传感器输入是对应于传感器输入虚拟生成的信息。换言之，当虚拟对象模型为真实存在的对象402时，也可以说虚拟传感器输入是传感器404要获得的传感器输入的虚拟实现。

图8是用于说明本实施方式中的虚拟传感器输入生成器102的示例构造的构造图。在该示例中，虚拟传感器输入生成器102使用称为生成对抗网络(GAN)的技术。因此，虚拟传感器输入生成器102包括由GAN获得的生成器111。

在输入到虚拟传感器输入生成器102的虚拟对象模型中，三维模型X^被输入到投影仪112，并且生成三维模型X^的平面投影图像。这里，投影仪112根据作业机4的实际构造，考虑传感器404与对象402之间的可能距离和对象402的姿势，生成现实可能的平面投影图像。

生成这样的平面投影图像的方法的示例包括随机设置模拟作为视频拍摄设备的传感器404的虚拟屏幕和三维模型X^的距离和角度。此外，希望将三维模型X^的姿势限制为现实中可能的姿势(例如，消除机械不稳定的姿势)。另外，可以生成包含多个三维模型X^的平面投影图像，或者可以根据一个或多个三维模型X^生成多个平面投影图像。

此外，背景图像由背景图像生成器113单独生成。背景图像生成器113被构造为生成在作业机4中现实可行的背景图像，并且该方法的示例包括随机选择作业机4的架子401的多个实景图像之一。获得的平面投影图像和合成图像由合成器114合成获得合成图像。

合成图像被输入到生成器111。生成器111是神经网络，其从输入的合成图像输出与由真实传感器404获得的传感器输入一样接近的虚拟传感器输入。结果，基于随机生成的虚拟对象模型获得与真实传感器输入不可区分的虚拟传感器输入。

现在，参考图9，简要描述了GAN。GAN本身也是已知的，因此对其进行了最少的描述。

GAN 6具有图9所示的构造，并且包括称为生成器601和鉴别器602的两个神经网络。如上所述，生成器601接收合成图像的输入，并输出虚拟传感器输入。同时，生成器601生成的虚拟传感器输入和真实传感器404获得的真实传感器输入都被输入到鉴别器602。此时，不向鉴别器602通知输入数据是虚拟传感器输入还是真实传感器输入。

鉴别器602的输出用于鉴别输入数据是虚拟传感器输入还是真实传感器输入。然后，在GAN 6中，对一些预先准备好的虚拟传感器输入和真实传感器输入重复执行强化学习，使得两者都在鉴别器602中被正确鉴别，并且使得两者都不能被生成器601中的鉴别器602鉴别。

这最终导致两者都不能被鉴别器602鉴别的状态(例如，当准备相同数量的虚拟传感器输入和真实传感器输入时，正确回答的百分比是50％)，并且在这种状态下，认为生成器601基于合成图像输出与真实传感器输入不可区分并且与真实传感器输入一样接近的虚拟传感器输入。因此，在图8所示的虚拟传感器输入生成器102中，使用如上所述学习的生成器111生成虚拟传感器输入。

上述虚拟模型生成器101和虚拟传感器输入生成器102的构造仅仅是示例，并且可以采用与机器学习数据生成装置1和机器学习装置2假定的作业机4相对应的适当构造。例如，虚拟模型生成器101可以被构造为通过基于简单地由随机数确定的参数的预定算法来生成虚拟对象模型，而不是使用VAE。此外，虚拟传感器输入生成器102可以被构造为使用已知的计算机图形方法，例如光线追踪和真实感渲染，而不是使用GAN，来生成虚拟传感器输入。此外，当预期对象402和传感器404不同时，自然应该采用具有适合其的构造的虚拟模型生成器101和虚拟传感器输入生成器102。本实施方式中描述的虚拟模型生成器101和虚拟传感器输入生成器102的构造在对象402具有不均匀的三维轮廓并且传感器404是视频拍摄设备时特别有效。

返回图2，虚拟操作命令生成器103根据虚拟对象模型或虚拟传感器输入中的至少一个生成虚拟操作命令。如上所述，在本示例中，操作命令是根据作业机4中的传感器404检测到的对象402的状态而变化的用于操作机器403的操作命令，并且虚拟操作命令是通过虚拟地生成操作命令获得的。

在虚拟操作命令生成器103中生成的虚拟操作命令可以通过与作业机4的操作命令生成器406相反的确定性算法来生成。对于虚拟操作命令的要求是，如果虚拟对象模型是真实对象402，那么在对象402上可以执行物理作业的可能性很大。物理作业不一定需要在现实中成功执行，或者如后所述，通过虚拟操作命令模拟。

在该示例中，虚拟操作命令生成器103使用虚拟对象模型和虚拟传感器输入两者来通过计算从虚拟对象模型确定其重心、单轴方向和沿单轴方向的长度，将重心和单轴方向从虚拟传感器输入转换为操作机器403的坐标并将坐标设置为目标位置，并根据单轴方向的长度计算机械手的夹持力。通过使用如上所述的虚拟对象模型，可以相对容易且唯一地生成物理作业能够成功执行的可能性高的虚拟操作命令。

应当理解，生成虚拟操作命令的方法不限于上述方法，并且可以是其他方法。其他方法可以是如例示的方法中使用确定性算法的方法，或者可以是如后述的使用非确定性算法的方法。

此外，其他方法可以是由操作者(人)辅助的方法。例如，还可以根据虚拟对象模型或虚拟传感器输入中的至少一个来选择当虚拟操作命令生成器103生成虚拟操作命令时操作者进行干预的方法。例如，当虚拟传感器输入是图像时，图像被呈现给操作者以使操作者在生成虚拟操作命令时指定点作为目标。在这种方法中，作为人的操作者的经验和决定通过简单的方法反映在虚拟操作命令上。在任何情况下，作为生成虚拟操作命令的方法，可以根据例如对象402和传感器404的特性来选择任何适当的方法。

根据本实施方式的机器学习数据生成装置1还包括模拟器104和实现状态评价器105。模拟器104和实现状态评价器105对应于图1所示的虚拟操作结果评价器116。

模拟器104执行物理作业的物理模拟。换句话说，在模拟器104中预先准备作为实际作业机4的操作机器403的虚拟模型的虚拟操作机器模型，将虚拟操作机器模型和虚拟对象模型布置在模拟器104的虚拟空间中，并且使虚拟操作机器模型按照虚拟操作命令进行操作，模拟作业机4在虚拟空间上要执行的物理作业。应当理解，虚拟操作机器模型和虚拟对象模型在虚拟空间上的布置再现了在虚拟传感器输入生成器102中生成虚拟传感器输入的情况。

作为用于物理模拟的物理引擎，可以使用对应于假定的物理作业的物理引擎。当如本示例中假定夹持对象402时，可以选择或构建可以执行碰撞确定和动态模拟的物理引擎，并且当物理作业不同时，应该理解，适当选择或构建执行流体模拟或破坏模拟、或模拟任何其他物理现象的物理引擎。

当模拟器104中的模拟完成时，由实现状态评价器105关于其实现状态评价模拟的结果。这里使用的术语“实现状态”是用于评价物理作业的对象实现的程度的度量。该度量可以是两级、连续评价或逐步评价。在本示例的情况下，可以执行夹持成功与否的两级评价。此外，例如，当对象402是无定形肉块，并且物理作业是将肉块切成“n”等份时，切割肉块的重量不均匀可以是实现状态，或者可以执行取决于对象的不均匀程度或实现程度的逐步评价。作为逐步评价，根据肉块重量的不均匀程度，实现状态可以是差、好、好三级评价，或者可以是质量不同的多级评价，例如，切割失败，切割成功但肉块不均匀度在允许范围外，切割成功且肉块不均匀度在允许范围内。

如已经描述的，在模拟器104中的模拟中使用物理引擎，因此在与多个变体(例如炸鸡块)相关的虚拟对象模型如上所示被随机堆积的情况下，不仅是被选为物理作业对象的虚拟对象模型与虚拟操作机器模型之间的交互、而且未被选为物理作业对象的其他虚拟对象模型与虚拟操作机器模型之间的交互，例如碰撞造成的干扰，也反映在实现状态上。换言之，虽然存在一种情况，即，即使在考虑到物理特性的变化的情况下，即使使用能够在单个虚拟对象模型上成功执行物理作业的虚拟操作命令，也可能由于多个虚拟对象模型被随机堆积的效果作业以失败告终，在根据本实施方式的机器学习数据生成装置1中，虚拟空间中的物理作业的实现状态被正确地评价，好像物理作业是真正的物理作业。

最后，在机器学习数据生成器106中，由虚拟传感器输入生成器102生成的虚拟传感器输入、由虚拟操作命令生成器103生成的虚拟操作命令、以及由实现状态评价器105评价的实现状态相互链接以获得机器学习数据。

在机器学习数据生成装置1中，可以针对由虚拟模型生成器101生成的对象402的多个变体的每个虚拟对象模型生成一个或多个机器学习数据集，并且可以在现实的时间和成本范围内轻松获得大量不同的机器学习数据集。此外，即使在对象402的结果不明显的物理作业和对象402所期望的操作、即操作命令的情况下，也以高概率由模拟器104通过物理模拟估计物理作业的结果，并且评价结果反映在机器学习数据上。

此外，机器学习装置2包括上述机器学习数据生成装置1和学习单元201，并通过使用由机器学习数据生成装置1生成的机器学习数据执行要在作业机4的操作命令生成器406中使用的神经网络模型407的学习。学习单元201取决于实现状态基于机器学习数据导致神经网络模型，所述神经网络模型是输入传感器输入并输出操作命令的神经网络。因此，在机器学习装置2中，反映物理作业的结果的机器学习是在时间和成本的实用范围内进行的，而不一定需要实际物理作业。

图10是用于说明由机器学习数据生成装置1生成的机器学习数据的构造的示例的图。图中所示的每个记录对应于一个机器学习数据集，并且每个记录包括虚拟传感器输入、虚拟操作命令、实现状态。在以下描述中，属于同一记录的虚拟传感器输入和虚拟操作命令根据需要通过后缀记录号来区分。

图11是用于说明学习单元201的构造的构造图。学习单元201中存储有神经网络模型202。神经网络模型202是学习完成后将来在作业机4的操作命令生成器406中用作神经网络模型407的模型。

机器学习数据被输入到学习单元201。图11示出了输入记录“n”作为机器学习数据的状态，并且在记录“n”中，将虚拟传感器输入“n”作为对神经网络模型202的问题，并以虚拟命令“n”作为问题的回答，执行神经网络模型202的学习。此时，记录“n”的实现状态通过过滤器203转换为系数“k”，并用于神经网络模型202的学习。

系数“k”表示允许/禁止使用记录“n”的机器学习数据、学习的正方向或负方向或其强度的神经网络模型202的学习。因此，可以说学习单元201根据实现状态使神经网络模型202学习。

在学习期间使用“k”的具体方法不一定受到限制。作为示例，当学习单元201执行正方向学习和负方向学习时，可以考虑分别准备用于执行各个方向的学习的代码，例如，取决于“k”的值，当k>0时执行用于正方向的学习的代码，当k<0时执行负方向学习的代码。在这种情况下，当k＝0时，可以预先适当地确定是正方向学习还是负方向学习，或者可以不使用记录进行学习。

替代地，当神经网络模型202的学习中的(随机)梯度下降法中的学习率被定义为“η”，并且当预定的学习率由η0表示时，可以满足以下等式：

[数学1]

η＝kη₀

在这种情况下，当“k”为正时执行正方向学习，当“k”为负时执行负方向学习，当k＝0时不执行学习。当使用这样的方法时，是否执行学习、学习是在正方向还是负方向执行、以及其强度可以自由设计，包括中等强度的学习，通过适当地设计过滤器203的形状。

图12是用于说明过滤器203的各种形状的示例的图。图中所示(A)部分的过滤器构造为，在实现状态指示“好”时执行正方向学习，在实现状态指示“差”时执行负方向学习。以这种方式，当“k”为正的区域和“k”为负的区域都包括在内时，可以说过滤器203用作学习方向确定器，根据实现状态确定利用机器学习数据的学习是在正方向还是负方向上执行。

(B)部分的过滤器构造为仅当实现状态指示“好”时才在正方向上执行学习。以这种方式，当包括k＝0的区域时，可以说过滤器203用作学习许可/禁止确定器，根据实现状态确定利用机器学习数据的学习的许可/禁止。

(C)部分的过滤器构造为使得系数“k”根据实现状态连续地改变。以这种方式，当包括“k”的值取中间值(1、0或-1以外的值)的区域时，可以说过滤器203用作学习强度确定器，根据实现状态确定利用机器学习数据的学习的强度。此外，该过滤器同时包括“k”为正的区域和“k”为负的区域，并且还包括k＝0的区域，因此可以说该过滤器203还同时用作学习方向确定器和学习许可/禁止确定器。

(D)部分的过滤器构造为使得系数“k”根据实现状态逐步改变。同样在这种情况下，与(C)部分的过滤器一样，可以说过滤器203同时用作学习强度确定器、学习方向确定器和学习许可/禁止确定器。

从(C)部分和(D)部分的过滤器中可以看出，当实现状态不是“好”或“坏”，或者其区分不明确时，“k”的值设置为0或具有0附近小绝对值的值。以这种方式，防止使用对提高学习精度没有贡献或贡献很小的机器学习数据执行无用的学习以相反抑制神经网络模型202的学习的情况。

如上所述，通过适当地设计过滤器203，并且根据机器学习数据中包括的实现状态来确定学习的许可/禁止、方向或强度中的至少一个，模拟器104中模拟的结果可以适当地反映在神经网络模型202的学习上，并且可以期待学习效果和收敛速度的提高。此外，当使用过滤器203确定学习的许可/禁止和方向时，不需要为学习的许可/禁止和方向的每种情况准备代码。结果，机器学习装置2是生产性的。

过滤器203不一定是学习单元201中的必要部件，实现状态可以直接用于神经网络模型202的学习。在这种情况下，可以认为提供了“1”作为过滤器203。

图13是根据本实施方式的机器学习数据生成装置1和机器学习装置2执行的机器学习数据生成方法和机器学习方法的流程图。在图示的流程中，(1)部分(步骤ST11～步骤ST17)对应于机器学习数据生成方法，(2)部分(步骤ST11～步骤ST18)对应于机器学习方法。

首先，在步骤ST11中，由虚拟模型生成器101生成用于对象402的多个变体的虚拟对象模型。在接下来的步骤ST12中，由虚拟传感器输入生成器102基于虚拟对象模型生成虚拟传感器输入。此外，在步骤ST13中，基于虚拟对象模型和虚拟操作命令生成器103输入的虚拟传感器输入中的至少一个来生成虚拟操作命令。

在步骤ST14中，通过模拟器104使用虚拟操作机器模型和虚拟对象模型，基于虚拟操作命令执行物理作业的计算机模拟。然后，在步骤ST15中，作为计算机模拟结果的物理作业的对象的实现状态由实现状态评价器105评价。处理进行到步骤ST16，并且在步骤ST16中，基于虚拟传感器输入、虚拟操作命令以及机器学习数据生成器106的实现状态生成机器学习数据。

生成的机器学习数据集作为记录累积。在步骤ST17中，确定记录数、即累积的机器学习数据集的数量是否充足，在记录数不足的情况下(步骤ST17：否)，处理返回步骤ST11，重复生成机器学习数据。当记录数充足时(步骤ST17：是)，处理进行到步骤ST18。作为所需记录数，可以预先确定目标数。替代地，对步骤ST18的机器学习的结果进行评价，在学习不充分的情况下，可以再次执行步骤ST11～步骤ST17，附加地生成机器学习数据。机器学习结果的评价可以通过评价学习单元201中神经网络模型202的内部状态的收敛性来执行，或者通过将测试数据输入到神经网络模型202并且通过获得的输出的准确率来执行。

在步骤ST18中，根据实现状态，基于学习单元201生成的机器学习数据，使神经网络模型202进行学习。以这种方式，在本实施方式中，获得学习了的适合作业机4的神经网络模型202。

在上述根据本发明第一实施方式的机器学习数据生成装置1和机器学习装置2中，作为由虚拟操作命令生成器103生成虚拟操作命令的方法，已经给出了涉及使用虚拟对象模型和虚拟传感器输入的确定性算法的方法的描述。下面，作为根据本发明第二实施方式的机器学习数据生成装置1和机器学习装置2，以及作为通过虚拟操作命令生成器103生成虚拟操作命令的方法，使用利用非确定性算法的示例。

图14是用于说明根据本发明的第二实施方式的包括机器学习数据生成装置1的机器学习装置2的整体构造的功能框图。为了简化本实施方式的描述，与上述实施方式中相同或对应的部件用相同的附图标记表示，并且省略对其的重复描述。

根据本实施方式的虚拟操作命令生成器103包括神经网络模型115。该神经网络模型115包括在学习单元201中，并且与要进行学习的神经网络模型202一样，传感器输入(或虚拟传感器输入)被输入其中，并且操作命令(或虚拟操作命令)从其输出。稍后描述神经网络模型115和神经网络模型202之间的关系。

神经网络模型115已经预先经历了一些学习。换言之，当向其输入一些传感器输入或虚拟传感器输入时，可以从中输出一定水平的操作命令或虚拟操作命令。在此使用的术语“一定水平”是指当通过从神经网络模型115输出的操作命令使作业机4的操作机器403操作时，或者当模拟器104的模拟被通过从神经网络模型115输出的虚拟操作命令执行时，实现了物理作业的目的，或者即使在没有达到实现的情况下，也获得了可以认为接近于实现的结果。

使用神经网络模型115的推理是非确定性算法，因此该示例描述了利用非确定性算法通过虚拟操作命令生成器103生成虚拟操作命令的方法的示例。当通过确定性算法难于或难以获得一定水平的可用于学习的虚拟操作命令时，这种方法是有效的。

此外，作为在虚拟操作命令生成器103中使用的神经网络模型115和要在学习单元201中进行学习的神经网络模型202，可以在本实施方式中的机器学习数据的生成和机器学习开始时使用相同的神经网络模型。例如，可以使用已经使用真实作业机4学习的神经网络模型(其可以是图5中所示的神经网络模型407)作为初始模型，其中使用了一些但不一定是大量的真实对象402。替代地，可以将完全没有学习的神经网络模型用作初始模型，或者进一步，可以将可以利用人工产生的机器学习数据的已经进行了一定程度的学习的神经网络模型用作这些初始模型。

考虑到，当使用包括包含这样的神经网络模型115的虚拟操作命令生成器103的机器学习数据生成装置1来生成机器学习数据、并且进一步使通过机器学习装置2使用这样的机器学习数据继续进行机器学习时，神经网络模型202的学习在学习单元201中进行，并且神经网络模型202获得的操作命令或虚拟操作命令的准确性、即当使用操作命令或虚拟操作命令时实现物理作业目标的可能性增加。

在神经网络模型202的学习已经如上所述进行的阶段中，复制器204用神经网络模型202覆盖和更新神经网络模型115。结果，虚拟操作命令生成器103生成的虚拟操作命令的准确性逐渐增加，因此预期神经网络模型202的学习更有效地进行并且更快地收敛。

复制器204对神经网络模型115的更新可以在适当的时间进行。例如，可以在使用机器学习数据的一定数量的记录进行学习时执行更新。替代地，可以监视神经网络模型202的学习的进度，并且可以在基于某种度量(例如，收敛常数)的时间执行更新。

又替代地，神经网络模型115可以针对每个记录更新，即，每当学习单元201执行利用一个机器学习数据集的学习时。在这种情况下，代替图14所示的构造，可以采用不提供复制器204而虚拟操作命令生成器103和学习单元201直接参考存储器上的公共神经网络模型115和202的构造。

在上述第一和第二实施方式中，已经给出了将操作机器403的夹持作为物理作业的示例的描述，因此虚拟传感器输入生成器102被构造为从虚拟对象模型的平面投影图像生成虚拟传感器输入。然而，生成虚拟传感器输入的方法不受限制，只要虚拟传感器输入基于虚拟对象模型，并且可以选择或设计适当的虚拟传感器输入以对应于对象402或物理作业。

作为示例，当物理作业是对金属零件进行去毛刺的磨削工作，并且要获得的操作命令是与毛刺形状相对应的磨石的加压力的时间曲线时，虚拟传感器输入生成器102可以通过使用模拟器104的暂定操作命令对虚拟对象模型进行模拟，并将获得的处理反应的时间分布用作虚拟传感器输入。这对应于在本示例中的实际作业机4进行去毛刺时以预定的加压力试磨削，并且基于试磨削期间的反应来设置精磨削的加压力的时间曲线。

图15是用于说明根据本发明的第三实施方式的包括机器学习数据生成装置1的机器学习装置2的整体构造的功能框图。另外，在本实施方式中，与上述实施方式中相同或对应的部件用相同的附图标记表示，并且省略对其的重复描述。

根据本实施方式的机器学习数据生成装置1与上述第一和第二实施方式的机器学习数据生成装置1的不同之处在于，图1所示的虚拟操作结果评价器116被干扰评价器117代替。

干扰评价器117基于由虚拟操作命令生成器103生成的虚拟操作命令，通过评价当在虚拟空间中执行物理作业时操作机器403和虚拟对象模型之间有无干扰，执行由操作机器403执行的物理作业的操作结果的评价。

换言之，例如，还考虑了虚拟对象模型的物理特性的不均匀性不像例如在上述炸鸡的示例中大的情况，并且还预期以下情况，其中根据物理作业的性质，只要对单个虚拟对象模型的命令正确发出，结果的可预测性就很高。认为对于这样的物理作业，利用物理模拟评价实现状态的必要性较小。

然而，当多个虚拟对象模型处于随机堆积的状态时，会发生这样的情况，即，即使使用预期物理作业在单个虚拟对象模型上成功执行的虚拟操作命令，由于存在与其相邻的多个虚拟对象模型，物理作业失败。具体地，操作机器403和其他未进行物理作业的虚拟对象模型可能会干扰，并且作业可能会失败。

当认为物理作业具有如上所述的性质时，认为虽然在生成机器学习数据时，仍需要响应于虚拟操作命令执行的物理作业的结果的评价，但不需要操作机器403执行的整个物理工作的物理模拟。因此，通过使用干扰评价器117作为虚拟操作结果评价器116来评价在所需时间点操作机器403和虚拟对象模型之间是否存在干扰，可以获得反映结果不明显的物理作业的结果的机器学习数据而无需实际的物理作业，与进行物理模拟的情况相比，可以期待显著减少计算量和所需时间。

因此，干扰评价器117评价在执行物理作业期间操作机器403和虚拟对象模型之间存在或不存在干扰。在此使用的短语“在执行物理作业期间”是指在虚拟空间中执行物理作业的时间段，并且评价在该时间段内的一个或多个时间点是否存在干扰。将什么时间点设置为时间点应根据物理作业的性质来确定，其示例包括，如下例所示，在从垂直上方的拾取作业的情况下，虚拟对象模型要被夹持的时间点，并且对于存在容易发生干扰的多个时间的物理作业，可以将每个时间设置为评价有无干扰的时间点。

作为与根据本实施方式的包括机器学习数据生成装置1的机器学习装置2相关的物理作业的具体示例，考虑如下情况：如图16所示，将随机堆积在架子401上的多个零件409用作对象402，并且将安装有作为末端执行器的平行夹持器的工业机器人用作作业机403来执行拾取。该图示出了由图15的虚拟模型生成器101生成的虚拟对象模型。

作为零件409，假设诸如机械零件的刚性零件，在本例中，例示了T字状的金属构件。此外，通过平行夹持器执行拾取工作，其中将对应于字母T的竖条的突出部分作为夹持位置。此时，零件409在架子401上相互重叠地随机堆积，因此夹持位置可能嵌入其他零件409下方，面朝下，或相邻零件409阻挡并干扰平行夹持器。因此，有相当数量的零件409以不能成功执行拾取作业的方式堆积。

预先向图15的虚拟操作命令生成器103给出操作机器403的目标值，利用该目标值，预期可以对单个零件409的虚拟对象模型执行物理作业。图17示出了在该示例中给予虚拟操作命令生成器103的目标值的示例。如图所示，当零件409在操作机器403的坐标内，即在作为末端执行器的平行夹持器的空间中的位置范围410内，并且当平行夹持器的姿势、即在空间中的角度相对于零件409在角度范围411内，认为操作机器403可以成功地拾取零件409。

在该示例中，目标值(即位置范围410和角度范围411)仅作为相对于作为本示例中的对象的虚拟对象模型的相对范围给出，但是可以以适当的方式给出目标值的范围，并且可以使用另一种方法。作为示例，不限于用户使用适当的图形用户界面(GUI)来预先指定相对于如图17所示的虚拟对象模型的相对位置范围410和相对角度范围411，对于由位置范围410和角度范围411组成的集合，由通过执行机械分析获得的位置和角度范围组成的集合与由夹持位置和姿势的范围组成的一个或两个集合的交集(其中平行夹持器和单个模型互不干扰)可用作目标值。

然而，应当注意，位置范围410和角度范围411是在假设对象零件409为单个的情况下设置的，因此在如图16所示多个零件409随机堆积的情况下，为特定零件409获得的位置范围410和角度范围411的一部分或全部可以包括不能执行物理工作的那些。即使不考虑与其他零件409的干扰，当平行夹持器的姿势在操作机器403的机构方面不能实现时，例如，对于平行夹持器从架子401下方接近零件409的姿势和在操作机器403的可动范围外的姿势，将其目标值从虚拟操作命令中排除。

结果，对于由虚拟模型生成器101生成的零件409的每个虚拟对象模型，由虚拟操作命令生成器103生成作为虚拟操作命令的一个或多个目标值A1...An，如图18所示。

这里，“n”是由虚拟模型生成器101生成的虚拟对象模型的数量，附加到目标值A的下标是标识生成的虚拟对象模型的数字。因此，目标值A1表示针对第1个虚拟对象模型生成的虚拟操作命令，对于第2～第n个虚拟对象模型也同样如此。

在本实施方式中，目标值A表示操作命令值空间(x,θ)中的正确回答范围，其表示操作机器403的操作命令可以取的值的范围。这里，“x”和“θ”是表示末端执行器可以通过操作机器403采取的位置和姿势的向量，其中“x”代表三维笛卡尔坐标“x”、“y”和“z”、“θ”在本示例中表示欧拉角“α”、“β”、“γ”。因此，目标值A是映射分布在6维空间中的值的多维矩阵。

具体地，对于图18中所示的目标值A1、目标值A2和目标值A3，示意性地表示为阴影区域的操作命令值空间(x,θ)中的特定区域412表示正确回答范围。换言之，作为操作机器403的目的位置和姿势，当坐标“x”、“y”、“z”、“α”、“β”、“γ”包含在由阴影表示的区域412中时，认为可以对目标虚拟对象模型执行物理作业，即平行夹持器的拾取。

区域412是通过基于由虚拟模型生成器101生成的虚拟的对象模型的虚拟空间中的坐标，定义图17所示的目标值的范围而获得的。此外，可以考虑目标值A的各种具体结构，但在本示例中，操作命令值空间(x,θ)以预定的分辨率划分，并且每个部分可以在落入区域412时被分配“1”，或者当落在区域412之外时被分配“0”。位于区域412边界的部分被分配“1”或“0”中的任一个，或根据包含在该部分中的区域412的体积而分配0和1之间的值。

如上所述由虚拟操作命令生成器103生成的特定虚拟对象模型的目标值A不是考虑到与其他虚拟对象模型的干扰影响而生成的。因此，在本实施方式中，干扰评价器117进一步评价操作机器403和虚拟对象模型之间是否存在干扰。

通过确定在相对于虚拟空间中的特定虚拟对象模型放置操作机器403时对象之间是否发生重叠来执行干扰存在与否的评价。图19是用于说明如何评价虚拟空间中的干扰的有无的图。该图示意性地示出了操作机器403的3D模型(在该示例中，末端执行器413，是设置在其远端处的平行夹持器)相对于作为特定虚拟对象模型的零件409如何放置。为了便于理解零件409和末端执行器413之间的位置关系，末端执行器413在图中被示为线框模型。

在该示例中，末端执行器413被放置在由特定目标值A指示的位置和姿势处。然后，在该状态下，获得形成末端执行器413的3D对象与包括其他未示出的零件409的零件409的3D对象之间的交集。当结果不是空集时，发现发生了干扰，并且不能执行利用目标值A中包含的位置和姿势的物理作业。

对所有获得的目标值A执行有无干扰的评价。结果，生成包含评价的虚拟操作命令，即，形成要获得的机器学习数据的回答数据。图20是示意性地表示将评价纳入目标值A而得到的回答数据的示例的图。

图20所示的回答数据是通过将干扰有无的评价结合到图18所示的目标值中而获得的。更具体地，通过从区域412中删除由于干扰不能执行物理作业的部分来获得回答数据，区域412是包括在由虚拟操作命令生成器103生成的目标值A中的目标值的范围。

在图20的示例中，对于目标值A1，没有由于干扰而不能进行物理作业的部分，因此区域412没有变化。相反，对于目标值A2，存在干扰部分发生的部分，因此区域412被部分删除并变小。对于目标值A3，在整个区域都发生干扰，因此区域412被删除，不再存在。类似地，对所有获得的目标值A加入干扰以校正区域412。

返回图15，机器学习数据生成器106通过使用虚拟传感器输入生成器102生成的虚拟传感器输入作为问题数据，并且将问题数据与从干扰评价器117获得的回答数据进行配对来生成机器学习数据。因此，当实际传感器输入被输入到经历学习单元201的学习的机器学习模型时，机器学习模型经历学习以输出与图20所示相似的目标值A。因此，期望通过使实际操作机器403基于输出目标值A进行操作，可以执行物理作业，即零件409的拾取，而不会造成干扰。

在以上描述中，当评价区域412部分地包括对于某些特定目标值A发生干扰的部分时，通过从区域412中删除相应部分来产生回答数据，但是当发生干扰的部分部分地或以一定比例或更多地包含在区域412中时，可以采取删除整个区域412的措施。此外，作为回答数据，可以仅使用至少保留区域412的目标值A，并且可以不使用针对其不存在区域412的目标值A(例如，图20的目标值A3)。替代地，也可以将针对其不存在区域412的目标值A用作回答数据，或者可以将目标值A1至An的并集用作回答数据。

此外，在以上描述中，使用3D对象之间的逻辑运算来评价干扰的存在或不存在，但是可以使用另一种方法，例如更简单的方法。例如，可以使用评价一个或多个预定截面中是否存在干扰的方法。

作为示例，参考图21描述使用沿图19的线P-P和Q-Q截取的两个截面来评价干扰的存在或不存在的方法。在相对于零件409存在的区域如图21所示的沿P-P线截取的截面中，用阴影表示的区域是作业机器403的末端执行器413存在的区域。

因此，可以评价为，当阴影区域中不存在其他零件409时，在沿线P-P截取的截面中没有发生干扰。类似地，在沿线Q-Q截取的截面中，可以评价为，当在末端执行器413存在的阴影所示的区域中不存在其他零件409时，沿线Q-Q截取的截面中没有发生干扰。因此，当沿线P-P和Q-Q截取的两个截面中均未发生干扰时，评价为未发生干扰。

要评价的截面的数量、以及其位置和方向是自由选择的，并且可以根据零件409和操作机器403的形状适当地确定。如上所述，在评价断面中有无干扰的方法中，通过确定二维平面的干扰的有无，可以进行整体干扰的评价，因此与确定在3维空间中是否存在干扰相比，可以将信息处理负载抑制到低水平。与此相反，对于形状复杂的零件409和操作机器403，通过上述在3维空间中确定有无干扰的方法，能够更准确地评价有无干扰。

如上所述，在本实施方式中，通过将指示操作机器403的操作命令值空间中的区域412的目标值用作虚拟操作命令，可以为每个虚拟对象模型生成目标值，并且可以容易地获得形成机器学习数据的回答数据，同时结合有无干扰的评价。

通过安装由上述机器学习装置2获得的已经学习的神经网络模型202，可以获得以高概率实现目标的作业机4。图22是用于说明作业机4的制造步骤的流程图。

首先，在步骤ST21中，准备形成作业机4所需的架子401、操作机器403、传感器404、控制器405和其他装置。此时，执行物理地形成作业机4所需的作业，例如装置的连接、接合和布线。

随后，在步骤ST22中，根据图13的(2)部分所示的流程，生成机器学习数据，并基于机器学习数据执行机器学习，从而获得已经学习的神经网络模型202。

最后，在步骤ST23中，将获得的神经网络模型202复制到作业机4的操作命令生成器406，以获得神经网络模型407。以这种方式，制造作业机4，其执行物理作业的结果从对象不明显的物理作业和对象期望的操作，而不执行通过实际物理作业的学习，或者同时减少通过实际物理作业的学习。

然后，当考虑包括图2所示的机器学习装置2以及图4和图5所示的作业机4的作业系统时，在作业系统中，机器学习装置2执行关于物理作业的机器学习，而不执行通过实际物理作业的学习，或者同时减少通过实际物理作业的学习，并且在作业机4中，执行反映机器学习的结果的物理作业。因此，通过使用作业系统，在现实的成本和时间的范围内，可以自动且高精度地执行物理作业的结果从对象不明显的物理作业和对象期望的操作。

此外，在以上描述中，在根据上述第一至第三实施方式的机器学习装置2中，输入传感器输入并输出操作命令的神经网络的学习基于机器学习数据生成装置1生成的机器学习数据在学习单元201中执行，但是使用机器学习数据生成装置1生成的机器学习数据的方法不一定限于上述方法。例如，可以从机器学习数据生成装置1生成的机器学习数据中包含的虚拟传感器输入生成一个或多个虚拟操作命令，并且所生成的虚拟操作命令可以用于基于机器学习数据中包含的回答数据选择或评价的神经网络模型的学习。类似地，代替将机器学习数据中包含的回答数据原样用于神经网络模型的学习，可以将回答数据转换为不同的格式，或者可以从回答数据中生成不同的数据用于例如神经网络模型的学习。

Claims

1.一种机器学习数据生成装置，包括：

虚拟传感器输入生成器，被构造为生成虚拟传感器输入，所述虚拟传感器输入是基于虚拟对象模型，对要经受作业机的操作机器的物理作业的多个随机堆积的对象，通过所述作业机的传感器执行感测，虚拟地生成传感器输入而获得的，所述虚拟对象模型是所述多个随机堆积的对象的虚拟模型；

虚拟操作命令生成器，被构造为生成虚拟操作命令，所述虚拟操作命令是通过根据所述虚拟对象模型或所述虚拟传感器输入中的至少一个虚拟地生成用于所述作业机的操作机器的操作命令而获得的；

虚拟操作结果评价器，被构造为评价所述作业机的操作机器在虚拟空间中响应于所述虚拟操作命令而执行的物理作业的结果；和

机器学习数据生成器，被构造为基于所述虚拟传感器输入、所述虚拟操作命令和所述虚拟操作结果评价器的评价生成机器学习数据。

2.根据权利要求1所述的机器学习数据生成装置，

其中，所述虚拟操作结果评价器包括：

模拟器，被构造为使用作为所述操作机器的虚拟模型的虚拟操作机器模型和所述虚拟对象模型，基于所述虚拟操作命令执行所述物理作业的计算机模拟；和

实现状态评价器，被构造为基于计算机模拟的结果评价所述物理作业的对象的实现状态，以及

其中，所述机器学习数据生成装置被构造为使用所述实现状态作为所述虚拟操作结果评价器的评价。

3.根据权利要求1所述的机器学习数据生成装置，

其中，所述虚拟操作结果评价器包括干扰评价器，所述干扰评价器被构造为在虚拟空间中执行所述物理作业期间评价所述操作机器和所述虚拟对象模型之间是否存在干扰，以及

其中，所述机器学习数据生成装置被构造为使用干扰的存在或不存在作为所述虚拟操作结果评价器的评价。

4.根据权利要求1至3中任一项所述的机器学习数据生成装置，还包括虚拟模型生成器，所述虚拟模型生成器被构造为针对所述多个随机堆积的对象的多个变体生成虚拟对象模型。

5.一种机器学习数据生成装置，包括：

虚拟传感器输入生成器，被构造为生成虚拟传感器输入，所述虚拟传感器输入是基于虚拟对象模型，对要经受作业机的操作机器的物理作业的对象，通过所述作业机的传感器执行感测，虚拟地生成传感器输入而获得的，所述虚拟对象模型是所述对象的虚拟模型；

模拟器，被构造为使用作为所述操作机器的虚拟模型的虚拟操作机器模型和所述虚拟对象模型，基于所述虚拟操作命令执行所述物理作业的计算机模拟；

实现状态评价器，被构造为基于计算机模拟的结果评价所述物理工作的对象的实现状态；和

机器学习数据生成器，被构造为基于所述虚拟传感器输入、所述虚拟操作命令和所述实现状态生成机器学习数据。

6.一种机器学习装置，包括：

根据权利要求1至4中任一项所述的机器学习数据生成装置；和

学习单元，被构造为根据虚拟操作结果评价器的评价，基于机器学习数据，使操作命令生成神经网络模型进行学习，所述操作命令生成神经网络模型是输入传感器输入并且输出操作命令的神经网络。

7.根据权利要求6所述的机器学习装置，其中，所述学习单元包括学习允许/禁止确定器，所述学习允许/禁止确定器被构造为根据所述虚拟操作结果评价器的评价来确定利用所述机器学习数据的学习的允许/禁止。

8.根据权利要求6或7所述的机器学习装置，其中，所述学习单元包括学习方向确定器，所述学习方向确定器被构造为根据所述虚拟操作结果评价器的评价确定使用所述机器学习数据的学习是正方向的学习还是负方向的学习。

9.根据权利要求6至8中任一项所述的机器学习装置，其中，所述学习单元包括学习强度确定器，所述学习强度确定器被构造为根据所述虚拟操作结果评价器的评价利用所述机器学习数据确定学习强度。

10.根据权利要求1至5中任一项所述的机器学习数据生成装置，其中，所述虚拟操作命令生成器包括虚拟操作命令生成神经网络模型，所述虚拟操作命令生成神经网络模型是输入虚拟传感器输入并且输出虚拟操作命令的神经网络模型。

11.根据权利要求6至9中任一项所述的机器学习装置，其中，所述虚拟操作命令生成器包括虚拟操作命令生成神经网络模型，所述虚拟操作命令生成神经网络模型是输入虚拟传感器输入并且输出虚拟操作命令的神经网络模型。

12.根据权利要求11所述的机器学习装置，其中，所述虚拟操作命令生成神经网络模型与所述操作命令生成神经网络模型相同，或者所述虚拟操作命令生成神经网络模型通过在所述学习单元中学习的所述操作命令生成神经网络模型来更新。

13.一种作业系统，包括：

根据权利要求6至9、11和12中任一项所述的机器学习装置；和

作业机，包括：

操作机器；

传感器；和

操作命令生成器，包括由机器学习装置的学习单元学习的神经网络模型，来自所述传感器的传感器输入被输入到所述神经网络模型，并且从所述神经网络模型输出用于所述操作机器的操作命令。

14.一种计算机程序，用于使计算机作为机器学习数据生成装置进行操作，

所述机器学习数据生成装置包括：

15.一种机器学习数据生成方法，包括：

生成虚拟传感器输入，所述虚拟传感器输入是基于虚拟对象模型，对要经受作业机的操作机器的物理作业的多个随机堆积的对象，通过所述作业机的传感器执行感测，虚拟地生成传感器输入而获得的，所述虚拟对象模型是所述多个随机堆积的对象的虚拟模型；

生成虚拟操作命令，所述虚拟操作命令是通过根据所述虚拟对象模型或所述虚拟传感器输入中的至少一个虚拟地生成用于所述作业机的操作机器的操作命令而获得的；

评价所述作业机的操作机器在虚拟空间中响应于所述虚拟操作命令而执行的物理作业的结果；和

基于所述虚拟传感器输入、所述虚拟操作命令和所述评价生成机器学习数据。

16.一种制造作业机的方法，

所述作业机包括：

操作机器，被构造为对多个随机堆积的对象执行物理作业；

传感器，被构造为对所述多个随机堆积的对象执行感测以获得传感器输入；和

操作命令生成器，被构造为将所述传感器输入输入到神经网络模型以获得用于所述操作机器的操作命令，

所述方法包括：

生成虚拟传感器输入，所述虚拟传感器输入是通过基于虚拟对象模型虚拟地生成所述传感器输入而获得的，所述虚拟对象模型是所述多个随机堆积的对象的虚拟模型；

根据所述虚拟对象模型或所述虚拟传感器输入中的至少一个，生成通过虚拟地生成所述操作命令而获得的虚拟操作命令；

评价所述作业机的操作机器在虚拟空间中响应于所述虚拟操作命令执行的物理作业的结果；

基于所述虚拟传感器输入、所述虚拟操作命令和所述评价生成机器学习数据；和

使所述神经网络模型基于所述机器学习数据进行学习。