CN107263464A

CN107263464A - 机器学习装置、机械系统、制造系统以及机器学习方法

Info

Publication number: CN107263464A
Application number: CN201710213188.1A
Authority: CN
Inventors: 中川浩; 梶山贵史
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2016-04-04
Filing date: 2017-04-01
Publication date: 2017-10-20
Anticipated expiration: 2037-04-01
Also published as: US10317854B2; DE102017002996A1; US20170285584A1; CN107263464B; JP6457421B2; JP2017185577A; DE102017002996B4

Abstract

本发明提供一种机器学习装置、机械系统、制造系统以及机器学习方法。机器学习装置(20)通过机器学习来学习针对机械(14)的控制指令，其具备：机器学习器(21)，其进行所述机器学习来输出所述控制指令；模拟器(22)，其基于所述控制指令来执行所述机械的作业动作的模拟；以及第一判定器(23)，其基于所述模拟器的所述模拟的执行结果来判定所述控制指令。

Description

机器学习装置、机械系统、制造系统以及机器学习方法

技术领域

本发明涉及一种利用模拟结果进行学习的机器学习装置、机械系统、制造系统以及机器学习方法。

背景技术

近年来，例如针对机器人等机械应用机器学习的情况受到关注，并进行了用于实用化的研究和开发。例如，在学习机械的控制指令的系统中，需要保证控制该机械的控制指令没有问题。

目前公开了通过神经网络推定位置误差，并修正动作程序的数据来进行动作的组装机器人(例如，日本特开平09-319420号公报，专利文献1)。

另外，目前还公开了针对虚拟的系统模型，通过重复输入作业指令候补进行学习，由此来得到不发生干扰的最佳作业动作的装置(例如，专利第5137537号公报，专利文献2)。

如上所述，作为针对机械使用了机器学习的情况，提出了各种方案，例如，在专利文献1中，根据得到的学习结果，机械的控制指令可能会对机械或周围环境造成干扰等。即，在机器学习中，由于未保证学习结果的安全性，因此例如难以防止干扰等，成为对生产线导入机器学习时的障碍。

另外，例如在专利文献2中，因为使用系统模型的评价结果来进行学习，因此需要系统模型准确，通过设置用于改善该系统模型的精度的模型再构成部来使最佳化成为可能。然而，在该方法中，最佳化结果的精度取决于系统模型的精度，因此系统模型的改善需要较长时间，并不现实。

发明内容

本发明鉴于上述现有技术的课题，其目的在于提供一种能够保证机器学习的安全性的机器学习装置、机械系统、制造系统以及机器学习方法。

通过本发明的第一实施方式，提供一种通过机器学习来学习对于机械的控制指令的机器学习装置，其具备：机器学习器，其进行所述机器学习来输出所述控制指令；模拟器，其基于所述控制指令来执行所述机械的作业动作的模拟；第一判定器，其基于所述模拟器的所述模拟的执行结果来判定所述控制指令。

优选如果所述模拟的执行结果没有问题，则所述第一判定器将所述控制指令判定为良好，并执行针对所述机械的所述控制指令的输入，如果所述模拟的执行结果有问题，则所述第一判定器将所述控制指令判定为不良，并停止针对所述机械的所述控制指令的输入。在所述第一判定器的判定结果为不良时，能够停止针对所述机械的所述控制指令的输入，并且可通过将所述第一判定器得到的第一结果标签作为训练数据赋予给所述机器学习器来进行学习。在所述第一判定器的判定结果为不良时，能够将包含从所述模拟器得到的计算结果数据的一部分或全部的第一状态量与所述第一结果标签一起赋予给所述机器学习器，由此来进行学习。

所述机器学习装置还具备第二判定器，其判定基于所述控制指令的所述机械的作业结果，在所述第一判定器的判定结果为良好时，能够执行针对所述机械的所述控制指令的输入，并且可通过将所述第二判定器得到的第二结果标签作为训练数据赋予给所述机器学习器来进行学习。在所述第一判定器的判定结果为良好时，能够通过将第二状态量与所述第二结果标签一起赋予给所述机器学习器来进行学习，该第二状态量包含检测所述机械或周围环境的状态的传感器的输出数据、控制所述机械的控制软件的内部数据、以及基于所述传感器的输出数据或所述控制软件的内部数据得到的计算数据中的至少一个数据。

将所述机器学习器的状态定期地或者在预先指定的条件成立时保存为第一状态，在所述第一判定器的判定结果为良好的频率已降低时，能够将所述机器学习器的状态返回到所述第一状态。在所述第一判定器的判定结果取得包含良好以及不良在内的三个以上的状态时，还能够基于所述状态来使所述控制指令中包含的所述机械的指令速度变化。所述机器学习器可以具备：回报计算部，其基于所述机械的作业状态来计算回报；价值函数更新部，其具有决定所述控制指令的价值的价值函数，基于所述回报来更新所述价值函数。所述机器学习装置也可以具备神经网络。

通过本发明的第二实施方式，提供了一种具备上述第一实施方式的机器学习装置以及所述机械的机械系统，其具备：控制装置，其控制所述机械；计算机装置，其具有包含所述机器学习器、所述模拟器以及所述第一判定器的所述机器学习装置，所述计算机装置经由网络连接一台或多台的所述机械。可以构成为在所述机械的实际生产作业中也继续进行所述机器学习器的学习，或者，事先执行所述机器学习器的学习，在所述机械的实际生产作业中不进行所述机器学习器的学习。

通过本发明的第三实施方式，提供了一种具备多个上述第二实施方式的机械系统的制造系统，在各个所述机械系统中设置所述机器学习装置，在多个所述机械系统中设置的多个所述机器学习装置经由通信介质相互共享或者交换数据。所述机器学习装置也可以存在于云服务器上。

通过本发明的第四实施方式，提供了一种通过机器学习来学习针对机械的控制指令的机器学习方法，进行所述机器学习来输出所述控制指令，基于所述控制指令来执行所述机械的作业动作的模拟，基于所述模拟的执行结果来判定所述控制指令，如果在所述模拟的执行结果中没有问题，则将所述控制指令判定为良好，并执行针对所述机械的所述控制指令的输入，如果在所述模拟的执行结果中有问题，则将所述控制指令判定为不良，停止针对所述机械的所述控制指令的输入。

附图说明

图1示意性地表示应用本发明的机械系统的一个例子。

图2是表示本发明的机器学习装置的第一实施例的框图。

图3用于说明图2所示的机器学习装置中的处理的一个例子。

图4用于说明从图3所示的整体图像中切出部分图像的处理的一个例子。

图5用于说明在图2所示的机器学习装置中采用的神经网络的输入输出的结构例子。

图6是表示本发明的机器学习装置的第二实施例的框图。

图7用于说明一个实施方式的机器学习装置中的机器学习器的一个例子。

具体实施方式

首先，在详细叙述本发明的利用模拟结果来进行学习的机器学习装置、机械系统、制造系统以及机器学习方法的实施方式之前，参照图1来说明应用本发明的机械系统的一个例子及其问题点。

图1示意性地表示应用本发明的机械系统的一个例子，表示安装了末端执行器13的机器人14进行从围栏11取出工件12的作业的情况。如图1所示，在机械系统的一个例子中，在围栏11的上方设置了三维测量仪15，通过该三维测量仪15拍摄工件12的深度图像。并且，基于三维测量仪15拍摄到的深度图像(图像30)，学习机器人14取出工件12的动作。在这里，机器人14例如为6轴多关节机器人，通过来自控制装置(机器学习装置)的控制指令(指令)来控制机器人14以及末端执行器13各自的驱动轴。

在通过机器学习来学习针对机器人14的指令时，根据通过机器学习装置20得到的指令，有可能发生干扰。例如，在针对机器人14的指令不适当(不良)时，具体来说，在图1中末端执行器13根据指令A如轨迹16那样进行移动(作业)时，末端执行器13(机器人14)与围栏11发生干扰。

即，要求针对机器人14的指令是适当(良好)的，具体来说，要求在图1中，机器人14如末端执行器13基于指令B的轨迹17那样，末端执行器13与围栏11不发生干扰地进行作业，例如，当把上述的指令A输入到机器人14时发生干扰，有可能导致围栏11、末端执行器13、机器人14以及末端执行器13、或者周边装置等的损坏。特别是，在实际的生产线中，由于牵涉到生产停止，因此成为大的问题。并且，根据围栏11内的工件12的状态，由于与其他的工件12的相互作用等，还可能产生机器人14无法顺畅地取出工件12的情况。在这种情况下，会发生作业节拍时间延迟的问题。

以下，参照附图来详细说明本发明的利用模拟结果来进行学习的机器学习装置、机械系统、制造系统以及机器学习方法的实施方式。在本说明书中，作为机械，以通过控制装置控制的工业用机器人为例进行说明，但是本发明当然也可以用于例如通过控制装置控制的机床、锻压机械、注射成型机、或者服务用机器人等。

图2是表示本发明的机器学习装置的第一实施例的框图。例如，表示在参照图1说明的机械系统(机器人系统)中使用的机器学习装置。机器学习装置20接收来自三维测量仪15的图像信息(图像)30来进行机器学习，对机器人(机械)14输出控制指令(指令)来控制作业动作(作业)。

如图2所示，机器学习装置20具备：进行机器学习来输出控制指令的机器学习器21、基于控制指令来执行机器人14的作业模拟的模拟器22、基于模拟器22的模拟执行结果来判定控制指令的第一判定器23、判定基于控制指令的机器人14的作业结果的第二判定器24。

如果在模拟器22的模拟执行结果中没有问题，则第一判定器23把从机器学习器21输出的控制指令判定为良好并输入给机器人14。然后，机器人14基于第一判定器23的判定结果为良好的控制指令来进行作业。另外，如果在模拟器22的模拟执行结果中有问题，则第一判定器23把控制指令判定为不良并停止对机器人14输入控制指令。即，不向机器人14输入第一判定器23的判定结果为不良的控制指令，避免机器人14基于在模拟器22的模拟执行结果中有问题的控制指令进行作业。

在这里，当第一判定器23的判定结果为不良时，不仅停止对机器人14输入控制指令，例如，还能够将通过第一判定器23得到的第一结果标签41作为训练数据赋予给机器学习器21由此来进行进一步的学习。

如此，通过第一实施例的机器学习装置20，在使机器人14实际进行动作之前，通过模拟器22执行控制指令，例如事先模拟周边装置与机器人14的距离、工件12的运动，并通过第一判定器23来判定干扰的发生或工件12取出失败的可能性。然后，基于模拟器22的模拟执行结果，仅在评价(判定)为没问题时使实机(机器人14)进行动作，由此能够防止实机的损坏或作业的失败等。即，通过第一实施例，能够保证机器学习的安全性，即能够防止产生机械损坏、作业失败或周边装置损坏等这样的问题。

并且，在第一实施例的机器学习装置20中，第二判定器24判定基于控制指令的机器人14的作业结果。然后，在第一判定器23的判定结果为良好时，执行针对机器人14的控制指令的输入，并且通过将第二判定器24得到的第二结果标签44作为训练数据赋予给机器学习器21来进行学习。

即，通过模拟器22来评价控制指令，通过第一判定器23来判定模拟器的评价结果，如果判定结果为良好则执行对机器人14的控制指令的输入，使机器人14进行实际的动作。然后，通过第二判定器24来判定机器人14的动作结果(作业结果)，第二判定器24输出第二结果标签44。然后，机器学习器21根据基于该第二结果标签44、来自上述第一判定器23的第一结果标签41以及图像30的训练数据来进行控制指令的学习(机器学习)。

此外，在第一判定器23的判定结果为不良时，不进行对机器人14的控制指令的输入，而从第一判定器23对机器学习器21输出第一结果标签41。然后，机器学习器21根据基于该第一结果标签41以及图像30的训练数据来进行控制指令的学习。

图3用于说明图2所示的机器学习装置中的处理的一个例子。图4用于说明从图3所示的整体图像切出部分图像的处理的一个例子。接下来，参照图3以及图4来说明例如从通过图1所示的三维测量仪15取得的整体图像31中切出图像的一部分来生成部分图像32的处理的一个例子。

如图4所示，部分图像32能够通过从整体图像31中切出任意的部分来生成，通常一边每隔一定间隔进行偏移(offset)，一边在覆盖整个区域之前重复进行切出处理。具体来说，例如对于横向320像素、纵向240像素的整体图像31，当一边将横向80像素、纵向80像素的部分图像32在纵横两方向上每次偏移40像素，一边生成部分图像时，得到{(320－80)/40+1}×{(240－80)/40+1}＝7×5＝35张的部分图像。

例如，向使用了神经网络的机器学习器25输入这样生成的部分图像32，作为机器学习器25的输出得到取出成功概率26。针对全部的部分图像重复进行上述动作，从其结果中选择具有最高取出成功概率的部分图像(32)，并取得切出该部分图像32的位置信息(最高取出成功概率位置的信息)27。

此外，神经网络(25)能够由模拟神经元模型的运算装置以及存储器等构成，并使用通用的计算机和处理器，例如在应用GPGPU(General-Purpose computing on GraphicsProcessing Units，通用图形处理器)或大规模PC集群等时，能够进行更高速处理。

然后，对模拟器22输入最高取出成功概率位置27的位置信息，进行机器人14的动作的评价(作业动作的模拟)。例如，通过预先在模拟器22中设定从工件12的取出位置开始，经由围栏11正上方的位置，向运出位置输送工件12的动作，能够生成取出动作的轨迹。

在此，作为简化后的模拟器22，例如可以生成从取出位置开始的取出动作，并输出机器人前端位置(末端执行器13)的时间序列数据。向第一判定器23输入该时间序列数据，检查机器人前端位置是否不会脱离事先由用户指定的范围，由此能够检查有无干扰，并能够进行动作结果的好坏判定，即进行控制指令良好还是不良的判定。

另外，作为更复杂的模拟器22，还能够设为如下的模拟器：进一步包含机器人14、机械手(末端执行器13)、围栏11、工件12以及周边环境等的形状模型、重量等物理值来进行建模，例如进行将重力的影响、工件相互的干扰、机器人中使用的电动机的负载等也作为计算对象的所谓物理模拟。

此时，不仅检查机器人前端位置的范围，而且针对由于工件与工件的相互干扰而导致的取出失败，或者机器人由于过负载而错误停止等也能够进行模拟(评价)。另外，关于从模拟器22得到的评价结果，具有干扰造成的对于机器人14或工件12的损害量、或者干扰余量等多个分支，因此通过从第一判定器23的判定好坏的多个基准中取舍地选择需要的基准来进行组合，能够进行更高水平的判定。

此外，如上所述，在通过第一判定器23判定为不良时，不向实际的机器人14(实机)输入控制指令，而是向机器学习器(神经网络)25输入训练数据，由此来进行控制指令的学习，该训练数据是基于来自第一判定器23的第一结果标签41以及所使用的部分图像43的训练数据。由此，例如能够避免向实机输入不良(有问题)的控制指令，另外还能够使机器学习器25进行学习以便不输出不良的控制指令。

图5用于说明在图2所示的机器学习装置中使用的神经网络的输入输出的结构例子。如图5所示，神经网路25接受部分图像32来作为输入，并输出取出成功概率26。在这里，当进行学习时，例如将所使用的部分图像43和第一结果标签41的集合作为训练数据，通过有教师学习来学习控制指令。

即，能够通过误差计算部28计算从所使用的部分图像43得到的取出成功概率26与从模拟器22得到的第一结果标签41之间的误差，并逆传播该误差，由此来进行神经网络25的学习。具体来说，在设为取出成功概率26得到从表示失败的“0”开始到表示成功的“1”为止的范围内的数值的情况下，关于第一结果标签41例如在接受取出成功/失败的结果来取得“0”或“1”的值时，能够通过取得两者的差来计算误差。

在通过第一判定器23判定为良好(良)的情况下，意味着即使对机器人14(实机)输入控制信号也能够保证没问题地进行动作(作业)。由此，对实机(机器人14)输入控制指令，使其实际地进行动作。然后，通过照相机等传感器观测该结果，并通过第二判定器24来判定结果实际是否良好。

从第二判定器24向神经网络25输出结果的好坏(良好/不良)来作为第二结果标签44。即，神经网络25取得由第二结果标签44以及所使用的部分图像43构成的训练数据来进行学习。该学习方法与使用了从上述的模拟器22得到的第一结果标签41时的学习相同。

另外，第一判定器23以及第二判定器24进行好坏判定，但是各个判定器输出的结果不需要一定是二值(“0”或“1”)。例如，能够将阈值设置两阶段，进行分类为“良”、“可”、“不可”这三种的判定。这是因为例如在机器人14在围栏11等障碍物附近经过时，根据模拟器22的精度会产生怀疑可能有干扰的状况。

例如，在怀疑可能有干扰时，不是将第一判定器23的判定设为“良(良好)”以及“不可(不良)”这样的二值判定，而是设为还包含了“可(中间)”的三个值，或者在此之上的多值，能够更细致地控制控制指令。即，在第一判定器23的判定结果取得包含良好以及不良的三个以上的状态(多值)时，基于该状态，例如使控制指令中包含的机器人14的指令速度变化，具体来说，在干扰的可能性高时，能够进行降低指令速度来使机器人14进行动作的控制。

由此，例如即使万一产生了机器人14的干扰时，也能够将机器人14和周边装置的损伤等抑制为小的损伤。并且，能够将阈值增加为三阶段、四阶段，并在每个阶段使指令速度变化从而更细致地应对干扰的风险。

在此，参照图2说明的机器学习装置20能够设置在机器人14的控制装置内，例如当考虑在不进行机器学习的作业中也使用机器人14时，从成本方面来看成为了过剩的装备。因此，也可以将进行机器学习的计算机装置(机器学习装置20)与机器人14的控制装置分别设置。通过这样的硬件结构，在机器人14的控制装置侧只准备用于接受控制指令的接口即可，能够抑制机器人14的控制装置的成本。另外，还具有以下的优点：通过只替换设置有机器学习装置20的计算机装置，能够容易地提高机器学习装置21、模拟器22的能力。

并且，因为经由网络将设置了机器学习装置20的计算机装置与机器人14的控制装置相连接，因此能够将计算机装置与多台机器人14(控制装置)连接，通过适当地切换进行学习的机器人14来进行连接，能够通过一台计算机装置进行多个(全部)机器人14的学习。即，例如具备机器学习装置20以及机器人14的机器人系统(机械系统)具备控制机器人14的控制装置、具有机器学习装置20的计算机装置，其中，机器学习装置20包含机器学习器21、模拟器22以及第一判定器23，能够经由网络将该计算机装置与一台或多台机器人14连接。

另外，在实际进行生产的机械系统中，会有一边持续生产一边希望通过学习来改善动作的情况。特别是机器学习在学习中需要很多的训练数据，因此为了增加进行学习的数量(数据数量)来提高学习效果，优选一边还使用实际进行生产的数据一边进行学习。

此时，成为问题的是无法保证通过学习使动作始终改善，会有相反地动作的成功率降低的情况。将该问题也与干扰的问题并列，有可能成为在实际的生产线中应用学习功能的障碍之一。因此，在动作的成功率降低的情况下，在向实际进行生产的机械系统应用时，也可不进行学习。即，例如能够在机器人14的实际生产作业中持续进行机器学习器21的学习，或者能够事先执行，而在机器人14的实际生产作业中不进行机器学习器21的学习。

另外，可在实际的生产线投入阶段等预先指定的定时保存机器学习器21的状态，或者定期地保存机器学习器21的状态，在第一判定器23的判定结果为不良的概率上升时，可将机器学习器21返回到以前的状态来恢复机器学习器21的性能，在保证实际的生产效率的同时通过学习进一步改善效率。即，能够构成为将机器学习器21的状态定期地或在预先指定的条件成立时保存为第一状态，在第一判定器23的判定结果为良好的频率降低时，使机器学习器21的状态返回到第一状态。此外，在上述的第一实施例中，表示了应用“有教师学习”的例子，但是也可应用“强化学习”等其他的学习方法。

图6是表示本发明的机器学习装置的第二实施例的框图，表示应用了强化学习的机器学习装置的例子。此外，在图6中表示已决定了取出位置，对机器人14的取出动作的轨迹进行学习的例子。在图6所示的第二实施例中，通过机器学习器55生成机器人14的动作轨迹，并输入到模拟器52。在模拟器52中，评价机器人14的动作，并通过第一判定器53来判定该动作的好坏(良好/不良)。

在第一判定器53的判定结果为良好时，执行针对机器人14的控制指令的输入，机器人14进行动作。通过第二判定器54来判定机器人14的动作结果，将该判定结果作为第二结果标签64向机器学习器55发送，并且向机器学习器55发送第二状态量65，该第二状态量65包含表示机器人14或周围环境的状态的数据、控制机器人14的控制软件的内部数据以及基于它们两者中的一方或两方得到的计算数据中的至少一个。即，在第一判定器53的判定结果为良好时，通过将第二状态量65与第二结果标签64一起赋予给机器学习器55来进行学习，该第二状态量65包含检测机器人14或周围环境的状态的传感器的输出数据、控制机器人14的控制软件的内部数据、以及基于传感器的输出数据或控制软件的内部数据得到的计算数据中的至少一个。

另外，在第一判定器53的判定结果为不良时，不向机器人14输入控制指令，而向机器学习器55发送通过第一判定器53的判定得到的第一结果标签61、通过模拟器52的内部数据构成的第一状态量62。即，在第一判定器53的判定结果为不良时，通过将包含从模拟器52得到的计算结果数据的一部分或全部的第一状态量62与第一结果标签61一起赋予给机器学习器55，来进行学习。

此时，例如，通过一定时间或一定距离的较短的步阶(step)来生成通过机器学习器55生成的动作轨迹，每次进行模拟和判定，通过重复上述处理最终生成整个动作轨迹。

在此，取得了第一结果标签61以及第一状态量62、或者第二结果标签64以及第二状态量65的机器学习器55例如进行“强化学习”。具体来说，对应用“Q学习”来进行学习的情况进行说明。

Q学习是在某个环境状态s下，对选择行为a的价值Q(s、a)进行学习的方法。即，在某个状态s时，选择价值Q(s、a)最高的行为a来作为最佳的行为即可。但是，最初对于状态s与行为a的组合，完全不知道价值Q(s、a)的正确值。因此，智能体(行为主体)在某个状态s下选择各种行为a，针对此时的行为a给予回报。由此，智能体学习选择更好的行为，即学习正确的价值Q(s、a)。

在此，在第二实施例的机器学习装置中应用Q学习来进行学习时，状态量s由以下构成：从第一判定器53输出的第一结果标签61以及从模拟器52输出的第一状态量62、或者从第二判定器54输出的第二结果标签64以及从机器人14或周边机器等输出的第二状态量65。

在第一结果标签61以及第二结果标签64中例如包含有无干扰、节拍时间、到最终位置的距离、工件12抓持的成功/失败等的结果。另外，行为a是针对机器人14的控制指令，例如能够设为机器人14的前端位置(末端执行器13)的移动方向以及移动速度等。

图7用于说明一实施方式的机器学习装置中的机器学习器的一个例子，表示应用了“强化学习(Q学习)”时的一个例子。如图7所示，机器学习器55具备回报计算部71以及价值函数更新部72。回报计算部71例如基于第一结果标签61以及第一状态量62、或者第二结果标签64以及第二状态量65来计算回报，例如计算分数。

在此，例如，针对动作的成功将回报设定得高，针对动作的失败将回报设定得低。另外，例如也可以基于动作的节拍时间来计算回报。并且，关于回报，例如也可以与机械手(末端执行器13)的抓持成功、机械手的搬运成功等这样的各阶段对应地来进行回报的计算。另外，例如在判断为发生了干扰时，通过进行以下处理，即进行设定使得回报变低，并且在该时间点中断动作从初始位置开始重新进行动作，由此例如能够不发生有问题的状态或者不会使有问题状态持续地来推进学习。

接着，价值函数更新部72例如具有决定动作价值的价值函数Q(s、a)，根据上述的回报计算部71的回报来更新价值函数。然后，基于更新后的价值函数来生成控制指令(动作轨迹)，并输出到模拟器52来进行上述的处理，用于控制机器人14(机械)。由此，能够通过保证了机器学习的安全性(防止发生机械的损坏、作业的失败、或者周边装置的损坏等这样的问题)的控制指令来控制机械。

此外，对于本发明的机器学习装置，不仅能够应用上述的“有教师学习”和“强化学习(Q学习)”，而且还能够广泛应用例如已知的各种各样的机器学习的方法(例如，各种“有教师学习”、“无教师学习”、以及“强化学习”)，或者在实现这些方法的基础上，学习抽出特征量本身的“深层学习(深度学习：Deep Learning)”等各种各样的技术。并且，本发明的机器学习装置的应用并不限定于上述的工业用机器人等，当然例如也可以是通过控制装置控制的机床、锻压机械、注射成型机或者服务用机器人等。

以上，在考虑了具备多个机械系统的制造系统的情况下，其中，机械系统具有机器学习装置以及机械(机器人)，例如可以在各个机械系统中设置机器学习装置，把在多个机械系统中设置的多个机器学习装置构成为经由通信介质来相互共享或交换数据。另外，机器学习装置还可构成为例如经由因特网等通信介质存在于云服务器上。

通过本发明的机器学习装置、机械系统、制造系统以及机器学习方法，起到能够保证机器学习的安全性的效果。

以上，说明了实施方式，在这里记载的全部例子和条件是以帮助理解发明以及适用于技术的发明概念为目的而记载的，特别是记载的例子和条件并非想要限制发明的范围。另外，说明书的记载并不表示发明的优点以及缺点。虽然详细记载了发明的实施方式，但是应理解为在不脱离发明的精神以及范围的情况下可进行各种变更、替换、变形。

Claims

1.一种机器学习装置，其通过机器学习来学习针对机械的控制指令，其特征在于，具备：

机器学习器，其进行所述机器学习来输出所述控制指令；

模拟器，其基于所述控制指令来执行所述机械的作业动作的模拟；

第一判定器，其基于所述模拟器的所述模拟的执行结果来判定所述控制指令。

2.根据权利要求1所述的机器学习装置，其特征在于，

如果在所述模拟的执行结果中没有问题，则所述第一判定器将所述控制指令判定为良好，并执行针对所述机械的所述控制指令的输入，

如果在所述模拟的执行结果中有问题，则所述第一判定器将所述控制指令判定为不良，并停止针对所述机械的所述控制指令的输入。

3.根据权利要求2所述的机器学习装置，其特征在于，

在所述第一判定器的判定结果为不良时，停止针对所述机械的所述控制指令的输入，并且通过将所述第一判定器得到的第一结果标签作为训练数据赋予给所述机器学习器来进行学习。

4.根据权利要求3所述的机器学习装置，其特征在于，

在所述第一判定器的判定结果为不良时，将包含从所述模拟器得到的计算结果数据的一部分或全部的第一状态量与所述第一结果标签一起赋予给所述机器学习器，由此来进行学习。

5.根据权利要求2至4中的任意一项所述的机器学习装置，其特征在于，

还具备第二判定器，该第二判定器判定基于所述控制指令的所述机械的作业结果，

在所述第一判定器的判定结果为良好时，执行针对所述机械的所述控制指令的输入，并且通过将所述第二判定器得到的第二结果标签作为训练数据赋予给所述机器学习器来进行学习。

6.根据权利要求5所述的机器学习装置，其特征在于，

在所述第一判定器的判定结果为良好时，通过将第二状态量与所述第二结果标签一起赋予给所述机器学习器来进行学习，该第二状态量包含检测所述机械或周围环境的状态的传感器的输出数据、控制所述机械的控制软件的内部数据、以及基于所述传感器的输出数据或所述控制软件的内部数据得到的计算数据中的至少一个。

7.根据权利要求2至6中的任意一项所述的机器学习装置，其特征在于，

将所述机器学习器的状态定期地或者在预先指定的条件成立时保存为第一状态，

在所述第一判定器的判定结果为良好的频率已降低时，将所述机器学习器的状态返回到所述第一状态。

8.根据权利要求2至7中的任意一项所述的机器学习装置，其特征在于，

在所述第一判定器的判定结果取得包含良好以及不良在内的三个以上的状态时，基于所述状态来使所述控制指令中包含的所述机械的指令速度变化。

9.根据权利要求2至8中的任意一项所述的机器学习装置，其特征在于，

所述机器学习器包含：

回报计算部，其基于所述机械的作业状态来计算回报；

价值函数更新部，其具有决定所述控制指令的价值的价值函数，基于所述回报来更新所述价值函数。

10.根据权利要求1至9中的任意一项所述的机器学习装置，其特征在于，

所述机器学习装置具备神经网络。

11.一种机械系统，其具备权利要求1至10中的任意一项所述的机器学习装置以及所述机械，其特征在于，具备：

控制装置，其控制所述机械；

计算机装置，其具有包含所述机器学习器、所述模拟器以及所述第一判定器的所述机器学习装置，

将一台或多台的所述机械经由网络与所述计算机装置连接。

12.根据权利要求11所述的机械系统，其特征在于，

在所述机械的实际生产作业中也继续进行所述机器学习器的学习，或者，事先执行所述机器学习器的学习，在所述机械的实际生产作业中不进行所述机器学习器的学习。

13.一种制造系统，其具备多个权利要求11或权利要求12所述的机械系统，其特征在于，

在各个所述机械系统中设置所述机器学习装置，

在多个所述机械系统中设置的多个所述机器学习装置经由通信介质相互共享或者交换数据。

14.根据权利要求13所述的制造系统，其特征在于，

所述机器学习装置存在于云服务器上。

15.一种机器学习方法，其通过机器学习来学习针对机械的控制指令，其特征在于，

进行所述机器学习来输出所述控制指令，

基于所述控制指令来执行所述机械的作业动作的模拟，

基于所述模拟的执行结果来判定所述控制指令，

如果在所述模拟的执行结果中没有问题，则将所述控制指令判定为良好，并执行针对所述机械的所述控制指令的输入，

如果在所述模拟的执行结果中有问题，则将所述控制指令判定为不良，并停止针对所述机械的所述控制指令的输入。