CN109254562A

CN109254562A - 控制装置以及学习装置

Info

Publication number: CN109254562A
Application number: CN201810772170.XA
Authority: CN
Inventors: 久保田彻
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2017-07-14
Filing date: 2018-07-13
Publication date: 2019-01-22
Also published as: DE102018005378A1; US20190018392A1; JP2019020959A

Abstract

本发明涉及控制装置以及学习装置，特别是涉及使针对具有冗余自由度的机械的指令最优化的控制装置。输出具有冗余自由度的机械各轴的指令的控制装置具备学习机械各轴的指令的机器学习装置。上述机器学习装置具备：状态观测部，其将表示机械各轴的活动或者程序的执行状态的数据作为表示环境当前状态的状态变量来进行观测；判断数据获取部，其获取表示加工结果的适当与否判断结果的判断数据；学习部，其使用状态变量和判断数据，将机械各轴的活动或者程序的执行状态与机械各轴的指令关联起来进行学习。

Description

控制装置以及学习装置

技术领域

本发明涉及控制装置以及学习装置，特别是涉及使针对具有冗余自由度的机械的指令最优化的控制装置。

背景技术

现有的控制装置所使用的加工程序通常由按照机械的轴结构的指令构成。即，现有的加工程序直接定义机械各轴的活动。因此，针对加工工件(指定工件形状)这种目的并不直观。另外，还存在以下问题：若在机械的调换时等轴结构发生变化，则加工程序也需要更新。将这种程序称为不具有冗余自由度、换言之不具有针对加工指令的轴结构的自由度的程序。

为了解决上述问题，还提出了具有冗余自由度的程序的几个制作方法。例如存在以下被称为TCP(Tool Center Point control：刀具前端点控制)的技术：以工件(严格地说工作台)坐标系为基准，通过程序对刀具位置和刀具姿势(刀具方向矢量)进行指令。例如在TCP中，以下示出的形式(1)那样对刀具位置和刀具姿势进行指令。在此，X、Y、Z表示刀具前端的位置，I、J、K表示刀具姿势。轴的活动由控制装置自动地决定。

X_Y_Z_I_J_K_；···(1)

另外，在日本特愿2016-240446号中公开了以下技术：通过程序对从设定于机械或者工件的任意坐标系观察到的、设定于机械的任意控制点进行指令。

通过使用冗余自由度，能够提高周期、加工面质量等加工性能。如果具有冗余自由度，则在预定的约束条件下能够任意地变更机械各轴的动作方法，因此，例如能够改变加减速的施加方法等。其结果是，能够改变周期、加工精度、加工面质量等。

作为具有冗余自由度的机械控制技术，设计了使目的函数的解最小化的结构。在此使用的目的函数是将刀具位置等设为输入，将向机械各轴的指令值设为输出，例如使缩短周期、提高加工精度等评价基准公式化而得到的(作为一例参照日本特开2015-54393号公报)。

如上所述，具有冗余自由度的机械的以往的控制技术需要评价基准的公式化。在将其应用于提高加工性能时存在以下问题。加工结果受到机械的设置环境、机械特性等各种因素的影响。这种因素是对加工结果带来较大影响的重要的因素，但是，另一方面，使对加工结果带来影响的所有因素公式化在现实中是不可能的。另外，由于并不知到控制装置与哪个机械进行组合，该机械被设置于何处，因此难以将上述因素预先包含在目的函数中。

发明内容

本发明是为了解决这种问题而完成的，其目的在于，提供使针对具有冗余自由度的机械的指令最优化的控制装置以及学习装置。

本发明的一个实施方式所涉及的控制装置输出具有冗余自由度的机械各轴的指令，其特征在于，该控制装置具备学习上述机械各轴的指令的机器学习装置，上述机器学习装置具备：状态观测部，其将表示上述机械各轴的活动或者程序的执行状态的数据作为表示环境当前状态的状态变量来进行观测；判断数据获取部，其获取表示加工结果的适当与否判断结果的判断数据；以及学习部，其使用上述状态变量和上述判断数据，将上述机械各轴的活动或者程序的执行状态与上述机械各轴的指令关联起来进行学习。

本发明的一个实施方式所涉及的控制装置的特征在于，上述状态变量包括位置、速度、加速度以及加加速度中的至少一个，作为表示上述机械各轴的活动的数据。

本发明的一个实施方式所涉及的控制装置的特征在于，上述判断数据包括刀具的速度和位置中的至少任一个的适当与否判断结果。

本发明的一个实施方式所涉及的控制装置的特征在于，上述判断数据包括周期、加工精度以及加工面质量中的至少任一个的适当与否判断结果。

本发明的一个实施方式所涉及的控制装置的特征在于，上述学习部具备：回报计算部，其求出与上述适当与否判断结果相关联的回报；以及价值函数更新部，其使用上述回报，对表示上述机械各轴的指令相对于上述机械各轴的活动或者程序的执行状态的价值的函数进行更新。

本发明的一个实施方式所涉及的控制装置的特征在于，上述学习部以多层结构来运算上述状态变量和上述判断数据。

本发明的一个实施方式所涉及的控制装置的特征在于，该控制装置还具备：决策部，其根据上述学习部的学习结果，输出表示上述机械各轴的指令的指令值。

本发明的一个实施方式所涉及的控制装置的特征在于，上述学习部使用从多个机械得到的上述状态变量和上述判断数据，学习上述机械各轴的指令。

本发明的一个实施方式所涉及的控制装置的特征在于，上述机器学习装置存在于云服务器。

本发明的一个实施方式所涉及的学习装置学习具有冗余自由度的机械各轴的指令，其特征在于，该学习装置具备：状态观测部，其将表示上述机械各轴的活动或者程序的执行状态的数据作为表示环境当前状态的状态变量来进行观测；判断数据获取部，其获取表示加工结果的适当与否判断结果的判断数据；以及学习部，其使用上述状态变量和上述判断数据，将上述机械各轴的活动或者程序的执行状态与上述机械各轴的指令关联起来进行学习。

根据本发明，能够提供使针对具有冗余自由度的机械的指令最优化的控制装置以及学习装置。

附图说明

通过说明参照附图的以下的实施例，能够更加明确本发明的上述和其它目的以及特征。在这些图中：

图1是表示具有冗余自由度的机械的控制方法的一例的图。

图2是表示具有冗余自由度的机械的控制方法的一例的图。

图3是表示控制装置1的一个方式的概要功能框图。

图4是表示控制装置1的一个方式的概要功能框图。

图5是表示机器学习方法的一个方式的流程图。

图6是表示机器学习方法的一个方式的流程图。

图7A是表示机器学习方法的一个方式的流程图。

图7B是表示机器学习方法的一个方式的流程图。

图8A是说明神经元的图。

图8B是说明神经网络的图。

图9是表示控制装置2的一个方式的概要功能框图。

图10是表示装入控制装置的系统的一个方式的概要功能框图。

图11是表示装入控制装置的系统的一个方式的概要功能框图。

图12是表示装入控制装置的控制系统的一个方式的概要功能框图。

具体实施方式

首先，为了使本发明更容易理解，针对机械具有冗余自由度的情况下的控制方法，使用几个示例来说明概要。

如图1所示，在具有X、Y、C轴的机械中，执行相对于设定在工件上的坐标系(以下，称为工件坐标系Σ_w)在X、Y轴上移动的程序。控制装置以机械坐标系Σ_m为基准来输出针对机械各轴的指令。在Σ_w的X-Y平面上执行绘制以Σ_m原点为中心的圆周圆的加工程序的情况下，为了实现该情况，控制装置存在许多控制机械各轴的方法。例如考虑以下(1)至(3)等的方法。(1)将C_m固定，使X_m、Y_m移动。即，在工作台上的工件停止不动的状态下，通过X_m、Y_m的合成使刀具进行动作来绘制圆弧。(2)将X_m、Y_m固定，使C_m旋转。即，不使刀具动作而使工作台上的工件旋转。(3)使X_m、Y_m和C_m交替地移动。即，使工作台、刀具两者进行动作。这些控制方法分别在加工时间、加工精度中具有差异，因此控制装置需要选择与控制目的相对应的方法，按每个控制周期向机械各轴输出指令。

另外，使用旋转刀具的直行3轴、旋转3轴的机械对程序始终具有冗余自由度。如图2所示，只要不考虑行程的极限则存在许多在工件上实现刀具位置和姿势的机械各轴的位置。控制装置需要从这样存在许多的机械各轴的位置中选择一个组合，按每个控制周期向机械各轴输出指令。

本发明提供以下方法：在这样控制具有冗余自由度的机械的情况下，例如根据加工时间优先、加工精度优先、两者的平衡重视等目的，控制装置决定各轴的最佳动作方法。

<实施方式1>

以下，使用附图说明本发明的实施方式。首先，使用图3的框图说明本发明的第一实施方式所涉及的控制装置1的结构。控制装置1包括机器学习装置100。机器学习装置100包括用于通过所谓机器学习来自己学习相对于机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态的、向机械各轴的指令的软件(学习算法等)和硬件(处理器等)。在该情况下，控制装置1所具备的机器学习装置100所学习的是相当于表示机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态与向机械各轴的指令的相关性的模型结构。

如图3的功能块所示，控制装置1所具备的机器学习装置100具备：状态观测部106，其将分别表示机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态的数据作为表示环境当前状态的状态变量S来进行观测；判断数据获取部108，其将刀具的速度和位置作为判断数据D来进行获取；以及学习部110，其使用状态变量S和判断数据D，将机械各轴的活动或者程序的执行状态与向机械各轴的指令关联起来进行学习。此外，判断数据获取部108也可以将周期、加工精度以及加工面质量作为判断数据D来进行获取。

状态观测部106例如能够构成为控制装置1所具备的处理器的一个功能。或者，状态观测部106例如能够构成为用于使处理器发挥功能的软件。

关于状态变量S中机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态，控制装置1按每个控制周期来计算或者获取这些值，并能够输入到状态观测部106。

判断数据获取部108例如能够构成为控制装置1的处理器的一个功能。或者，判断数据获取部108例如能够构成为用于使处理器发挥功能的软件。

在使用刀具的速度和位置作为判断数据D的情况下，控制装置1可以按每个控制周期计算或者获取这些值，并输入到判断数据获取部108。即，在该情况下，控制周期成为学习周期。此时，基本上，判断数据D根据一个周期相当(几ms)的加工结果来计算，但是还可以根据较长跨距(过去一秒钟等)的加工结果来计算。另一方面，在使用周期、加工精度以及加工面质量作为判断数据D的情况下，切削块或程序的中断等能够在加工中的每个适当的时刻计算或者获取。例如切削块或程序的周期能够由控制装置1测量，加工精度和加工面质量在切削块或程序的中断中将照相机、激光传感器设为测量模式等，能够在机械内进行测量。判断数据获取部108能够这些测量值作为判断数据D来进行获取。在该情况下，在加工中的每个适当的时刻进行一个周期的学习。

在根据学习部110的学习周期来考虑的情况下，对学习部110输入的状态变量S将基于获取判断数据D的一个学习周期前的数据。即，在控制装置1所具备的机器学习装置100进行学习期间、环境中，重复实施状态变量S的获取、根据状态变量S调整的向机械各轴的指令的输出、以及判断数据D的获取。

学习部110例如能够构成为控制装置1的处理器的一个功能。或者，学习部110例如能够构成为用于使处理器发挥功能的软件。学习部110按照被总称为机器学习的任意的学习算法，学习与机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态对应的向机械各轴的指令。学习部110能够按每个控制周期或者加工中的每个适当的时刻反复执行基于包括状态变量S和判断数据D的数据集合的学习。

通过重复执行这种学习循环，能够自动地识别对表示机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态的状态变量S与向机械各轴的指令的相关性进行暗示的特征。在开始进行学习算法时，状态变量S与向机械各轴的指令的相关性实质上是未知的，但是学习部110随着进行学习而逐渐识别特征并解释相关性。当状态变量S与向机械各轴的指令的相关性被解释到某种程度可信赖的水准为止时，由学习部110反复输出的学习结果能够用于进行相对于当前状态(即机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态)应该将向机械各轴的指令设为怎样的值的行动的选择(即决策)。

如上所述，控制装置1所具备的机器学习装置100使用状态观测部106观测到的状态变量S以及判断数据获取部108获取到的判断数据D，学习部110安照机器学习算法，学习向机械各轴的指令。状态变量S由像是机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态这样的数据构成，另外，通过获取刀具的速度和位置(或者周期、加工精度和加工面质量)来唯一地求出判断数据D。因而，根据控制装置1所具备的机器学习装置100，不依赖于运算或估计就能够自动地且正确地求出与机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态相对应的向机械各轴的指令。

而且，如果不依赖于运算或估计就能够自动地求出向机械各轴的指令，则仅通过掌握机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态，就能够迅速地决定向机械各轴的指令的适当的值。因而，能够高效地决定向机械各轴的指令。

在具有上述结构的机器学习装置100中，学习部110执行的学习算法并不特别进行限定，作为机器学习能够采用公知的学习算法。图4是图3所示的控制装置1的一个方式，示出具备作为学习算法的一例而执行强化学习的学习部110的结构。强化学习是以下方法：观测学习对象存在的环境的当前状态(即输入)，并且在当前状态下执行预定的行动(即输出)，以试错的方式反复进行对该行动附加任意的回报这样的循环，将回报的总计被最大化的对策(在本申请的机器学习装置中向机械各轴的指令的决定)作为最优解来进行学习。

在图4所示的控制装置1所具备的机器学习装置100中，学习部110具备：回报计算部112，其根据状态变量S来求出与已决定向机械各轴的指令的情况下的刀具的速度和位置(或者周期、加工精度以及加工面质量)的适当与否判断结果(相当于在获取到状态变量S的下一学习周期中使用的判断数据D)相关联的回报R；以及价值函数更新部114，其使用回报R，更新表示向机械各轴的指令的价值的函数Q。通过价值函数更新部114重复更新函数Q，由此学习部110学习向机械各轴的指令的最优解。

说明由学习部110执行的强化学习的算法的一例。本例的算法是作为Q学习(Q-learning)而公知的算法，是将行动主体的状态s以及在该状态s下行动主体能够选择的行动a作为独立变量，学习表示在状态s下选择了行动a时的行动的价值的函数Q(s、a)的方法。在状态s下选择价值函数Q变得最高的行动a的这一情况将成为最优解。在状态s与行动a的相关性为未知的状态下开始进行Q学习，重复进行在任意的状态s下选择各种行动a的试错，由此反复更新价值函数Q，从而接近最优解。在此，结构为作为在状态s下选择了行动a的结果，当环境(即状态s)发生变化时，能够得到与其变化相应的回报(即行动a的权重)r，以选择能够得到更高的回报r的行动a的方式来引导学习，由此在较短时间内能够使价值函数Q接近最优解。

价值函数Q的更新式通常能够表示为以下数学式1。在数学式1中，s_t和a_t分别为时刻t的状态和行动，通过行动a_t而状态变化为s_t+1。r_t+1为状态从s_t变化为s_t+1而得到的回报。maxQ的项表示进行在时刻t+1达到最大的价值Q(在时刻t中考虑的)行动a时的Q。α和γ分别为学习系数和折扣率，以0<α≤1、0<γ≤1进行任意设定。

[数学式1]

在学习部110执行Q学习的情况下，状态观测部106观测到的状态变量S以及判断数据获取部108获取到的判断数据D对应于更新式的状态s，像是应该如何决定相对于当前状态(即机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态)的向机械各轴的指令的这样的行动对应于更新式的行动a，回报计算部112求出的回报R对应于更新式的回报r。由此，价值函数更新部114通过使用了回报R的Q学习来重复更新表示相对于当前状态的向机械各轴的指令的输出的价值的函数Q。

就回报计算部112求出的回报R而言，例如在决定了向机械各轴的指令的输出之后，进行基于所决定的指令的机械各轴的控制时，在刀具的速度和位置(或者周期、加工精度以及加工面质量)的适当与否判断结果被判断为“适当”的情况下，能够设为正(plus)的回报R，在适当与否判断结果被判断为“否”的情况下能够设为负(minus)的回报R。

例如在按每个控制周期进行学习的情况下，如果刀具速度与程序指令速度的差在预定的速度差范围内则可以将回报R设定为+5，如果超过速度差范围而刀具速度更快则可以将回报R设定为+10，如果超过速度差范围而刀具速度更慢则可以将回报R设定为-10等。由此，就函数Q而言，越是周期变快的指令则越被评价为价值大。另外，如果刀具位置与程序指令路径的差在预定的误差范围内则可以将回报R设定为+5，如果小于误差范围则可以将回报R设定为+10，如果大而超过误差范围则可以将回报R设定为-10等。由此，就函数Q而言，越是加工精度增加的指令则越被评价为价值大(参照图6)。

另外，在加工中的每个适当的时刻进行学习的情况下，如果周期在预先决定的时间范围内则可以将回报R设定为+0，如果比预先决定的时间范围短则可以将回报R设定为+5，如果长而超过预先决定的时间范围则可以将回报R设定为-5等。由此，就函数Q而言，越是周期变快的指令则越被评价为价值大。另外，如果加工精度的评价值在预先决定的范围内则可以将回报R设定为+0，如果优选超过预先决定的范围则可以将回报R设定为+5，如果不利超过预先决定的范围则可以将回报R设定为-5等。

由此，就函数Q而言，越是加工精度良好的指令则越被评价为价值大。另外，如果加工面质量的评价值在预先决定的范围内则能够将回报R设定为+0，如果优选超过预先决定的范围则能够将回报R设定为+5，如果不利超过预先决定的范围则能够将回报R设定为-5等。由此，就函数Q而言，越是加工精度良好的指令则越被评价为价值大(参照图7A、图7B)。

价值函数更新部114可以具有：行动价值表，其将状态变量S、判断数据D以及回报R与以函数Q所表示的行动价值(例如数值)关联起来进行了整理。在该情况下，像是由价值函数更新部114更新函数Q的这种行为与像是由价值函数更新部114更新行动价值表的这种行为意义相同。由于在开始进行Q学习时环境当前状态与机器人所具备的各电动机的移动速度的调整量的相关性是未知的，因此在行动价值表中，以与随机决定的行动价值的值(函数Q)相关联的方式准备各种状态变量S、判断数据D以及回报R。此外，如果获知判断数据D，则回报计算部112能够直接计算与其对应的回报R，并将计算出的值R写入到行动价值表。

当使用与刀具的速度和位置(或者周期、加工精度以及加工面质量)的适当与否判断结果相应的回报R来进行Q学习时，向选择能够得到更高回报R的行动的方向来引导学习，根据作为在当前状态下执行已选择的行动的结果而变化的环境的状态(即状态变量S和判断数据D)，对针对在当前状态下进行的行动的行动价值的值(函数Q)进行重写并更新行动价值表。通过重复进行该更新，由此显示在行动价值表中的行动价值的值(函数Q)以越是适当的行动则成为越大的值的方式被重写。这样，未知的环境当前状态(机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态)与相对于此的行动(向机械各轴的指令)的相关性逐渐变清楚。即，通过更新行动价值表，机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态与向机械各轴的指令的关系逐渐接近最优解。

参照图5进一步说明学习部110所执行的上述Q学习的流程(即，机器学习方法的一个方式)。首先，在步骤SA01中，价值函数更新部114一边参照该时刻的行动价值表，一边随机选择向机械各轴的指令来作为状态观测部106观测到的状态变量S所示的当前状态下进行的行动。接着，价值函数更新部114在步骤SA02中取入由状态观测部106观测到的当前状态的状态变量S，在步骤SA03中取入由判断数据获取部108获取到的当前状态的判断数据D。接着，价值函数更新部114在步骤SA04中根据判断数据D判断向机械各轴的指令是否适当，在适当的情况下，在步骤SA05中将回报计算部112求出的正的回报R应用于函数Q的更新式，接着，在步骤SA06中使用当前状态下的状态变量S和判断数据D、回报R以及行动价值的值(更新后的函数Q)来更新行动价值表。在步骤SA04中在判断为向机械各轴的指令并不适当的情况下，在步骤SA07中将回报计算部112求出的负的回报R应用于函数Q的更新式，接着，在步骤SA06中使用当前状态下的状态变量S和判断数据D、回报R以及行动价值的值(更新后的函数Q)来更新行动价值表。学习部110通过重复进行步骤SA01～SA07来反复更新行动价值表，推进学习向机械各轴的指令的最优解。此外，对判断数据D内包含的各数据执行从步骤SA04至步骤SA07为止的求出回报R的处理和价值函数的更新处理。

在进行强化学习时，例如也能够使用神经网络来代替Q学习。图8A示意性地示出神经元的模型。图8B示意性地示出将图8A示出的神经元进行组合而成的三层神经网络的模型。神经网络例如能够由模拟神经元的模型而成的运算装置、存储装置等构成。

图8A所示的神经元输出针对多个输入x(在此，作为一例为输入x₁～输入x₃)的结果y。将各输入x₁～x₃乘以与该输入x对应的权重w(w₁～w₃)。由此，神经元输出由以下数学式2表现的输出y。此外，在数学式2中，输入x、输出y以及权重w均为矢量。另外，θ为偏压，f_k为激活函数。

[数学式2]

图8B所示的三层神经网络从左侧被输入多个输入x(在此，作为一例为输入x1～输入x3)，从右侧输出结果y(在此，作为一例为结果y1～结果y3)。在图示的示例中，乘以与输入x1、x2、x3分别对应的权重(总称表示为w1)，各输入x1、x2、x3均被输入到三个神经元N11、N12、N13。

在图8B中，将神经元N11～N13的各输出总称表示为z1。z1可以视为提取了输入矢量的特征量而得到的特征矢量。在图示的示例中，乘以与特征矢量z1分别对应的权重(总称表示为w2)，各特征矢量z1均被输入到两个神经元N21、N22。特征矢量z1表示权重W1与权重W2之间的特征。

在图8B中，将神经元N21～N22的各输出总称表示为z2。z2可以视为提取了特征矢量z1的特征量而得到的特征矢量。在图示的示例中，乘以与特征矢量z2分别对应的权重(总称表示为w3)，各特征矢量z2均被输入到三个神经元N31、N32、N33。特征矢量z2表示权重W2与权重W3之间的特征。最后，神经元N31～N33分别输出结果y1～y3。

此外，还能够使用包括形成为三层以上的层的神经网络的所谓深度学习的方法。

在控制装置1所具备的机器学习装置100中，将状态变量S和判断数据D作为输入x，学习部110进行按照上述神经网络的多层结构的运算，由此能够输出向机械各轴的指令(结果y)。另外，在控制装置1所具备的机器学习装置100中，将神经网络用作强化学习中的价值函数，将状态变量S和行动a作为输入x，学习部110进行按照上述神经网络的多层结构的运算，由此也能够输出该状态下的该行动的价值(结果y)。此外，在神经网络的动作模式中存在学习模式和价值预测模式，例如在学习模式下能够使用学习数据集来学习权重w，使用学习到的权重w在价值预测模式下判断行动的价值。此外，在价值预测模式下还能够进行检测、分类、推论等。

上述控制装置1的结构可以记述为由处理器执行的机器学习方法(或者软件)。该机器学习方法学习向机械各轴的指令，其中，计算机的CPU具有以下步骤：将机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态作为表示环境当前状态的状态变量S来进行观测的步骤；获取表示与向调整过的机械各轴的指令相应地得到的刀具的速度和位置(或者周期、加工精度以及加工面质量)的适当与否判断结果的判断数据D的步骤；以及使用状态变量S和判断数据D，将机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态与向机械各轴的指令关联起来进行学习的步骤。

<实施方式2>

图9示出第二实施方式的控制装置2。控制装置2具备：机器学习装置120；以及状态数据获取部3，其将状态观测部106观测到的状态变量S即机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态作为状态数据S0来进行获取。状态数据获取部3可以从控制装置2、机械所具备的各种传感器等获取状态数据S0。

控制装置2所具有的机器学习装置120除了包括用于通过机器学习来自己学习向机械各轴的指令的软件(学习算法等)和硬件(处理器等)以外，还包括用于将根据学习结果求出的向机械各轴的指令输出到控制装置2的软件(运算算法等)和硬件(处理器等)。

控制装置2所包含的机器学习装置120还可以具有由一个共用处理器来执行学习算法、运算算法等所有软件的结构。

决策部122例如能够构成为控制装置2所具备的处理器的一个功能。或者，决策部122例如能够构成为用于使处理器发挥功能的软件。决策部122根据由学习部110学习到的结果，生成并输出包括相对于机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态的、向机械各轴的指令的指令值C。在决策部122将指令值C输出到控制装置2的情况下，与此相应地，环境状态发生变化。

状态观测部106在下一学习周期中观测在由决策部122输出向环境的指令值C之后变化的状态变量S。学习部110使用变化后的状态变量S，例如更新价值函数Q(即行动价值表)，由此学习向机械各轴的指令。

决策部122将表示根据学习结果求出的向机械各轴的指令的指令值C输出到控制装置2。通过重复进行该学习周期，机器学习装置120学习向机械各轴的指令，使自己所决定的向机械各轴的指令的可靠性逐渐提高。

具有上述结构的控制装置2所具备的机器学习装置120起到与上述机器学习装置100相等的效果。特别是，机器学习装置120能够通过决策部122的输出使环境状态变化。另一方面，在机器学习装置100中，可以向外部装置要求相当于用于使学习部110的学习结果反映于环境的决策部的功能。

图6具体地示出了在按每个控制周期进行学习的情况下控制装置2的学习部110所执行的Q学习的流程的一例。首先，在步骤SB01中，状态观测部106观测在上一次行动之后变化的当前状态变量S。在步骤SB02中，决策部122一边参照该时间点的行动价值表，一边选择最佳的向机械各轴的指令作为状态变量S所示的当前状态下进行的行动。在此，决策部122也可以一边参照该时间点的行动价值表，一边以预定的概率随机地选择向机械各轴的指令。由此，能够提高学习效率。在步骤SB03中，学习部110取入判断数据获取部108所获取的当前状态的判断数据D。学习部110在步骤SB04中根据判断数据D中的刀具速度，判断向机械各轴的指令是否适当。另外，在步骤SB05中，根据判断数据D中的刀具位置，判断向机械各轴的指令是否适当。在步骤SB04、SB05中判断为指令为适当的情况下，将回报计算部112求出的正的回报R应用于函数Q的更新式，在判断为不适当的情况下，将回报计算部112求出的负的回报R应用于函数Q的更新式。最后，在步骤SB06中，学习部110使用当前状态下的状态变量S和判断数据D、回报R以及行动价值的值(更新后的函数Q)来更新行动价值表。

图7A和图7B具体地示出了在加工中的每个适当的时刻进行学习的情况下控制装置2的学习部110执行的Q学习的流程的一例。首先，在步骤SC01中，状态观测部106观测在上一次行动之后变化的、当前状态变量S。在步骤SC02中，决策部122一边参照该时间点的行动价值表，一边选择最佳的向机械各轴的指令作为状态变量S所示的当前状态下进行的行动。在此，决策部122也可以一边参照该时间点的行动价值表，一边以预定的概率随机地选择向机械各轴的指令。由此，能够提高学习效率。在步骤SC03中，判断是否到达切削块、程序的中断等适于学习的时刻、即是否实现学习条件。

如果未实现学习条件，则转移到步骤SC01。如果实现学习条件，则转移到步骤SC04，学习部110取入判断数据获取部108所获取到的当前状态的判断数据D。学习部110在步骤SC05中根据判断数据D中的周期，判断向机械各轴的指令是否适当。

在步骤SC06中，根据判断数据D中的加工精度，判断向机械各轴的指令是否适当。在步骤SC07中，根据判断数据D中的加工面质量，判断向机械各轴的指令是否适当。在步骤SC05、SC06、SC07中均判断为指令适当的情况下，将回报计算部112求出的正的回报R应用于函数Q的更新式，在判断为不适当的情况下，将回报计算部112求出的负的回报R应用于函数Q的更新式。最后，在步骤SC08中，学习部110使用当前状态下的状态变量S和判断数据D、回报R以及行动价值的值(更新后的函数Q)来更新行动价值表。

图10表示具备机械160的一个实施方式的系统170。系统170包括具有相同结构的多个机械160、160’以及将这些机械160、160’相互连接的有线/无线的网络172，多个机械160中的至少一个构成为具备上述控制装置2的机械160。另外，系统170能够包括不具备控制装置2的机械160’。机械160、160’具有相同目的的作业所需的机构。

就具有上述结构的系统170而言，多个机械160、160’中具备控制装置2的机械160使用学习部110的学习结果，不依赖于运算或估计就能够自动地且正确地求出相对于机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态的、向机械各轴的指令。另外，至少一个机械160的控制装置2能够构成为根据针对其它多个机械160、160’中的每一个机械得到的状态变量S和判断数据D，学习向与所有机械160、160’共通的机械各轴的指令，所有机械160、160’共享其学习结果。因而，根据系统170，将更多种数据集合(包括状态变量S和判断数据D)作为输入，能够提高向机械各轴的指令的学习速度、可靠性。

图11表示具备机械160’的其它实施方式的系统170’。系统170’具备机器学习装置120(或者100)、具有相同结构的多个机械160’以及将这些机械160’与机器学习装置120(或者100)相互连接的有线/无线的网络172。

就具有上述结构的系统170’而言，机器学习装置120(或者100)根据针对多个机械160’的每一个机械得到的状态变量S和判断数据D，学习相对于与所有机械160’共通的机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态的向机械各轴的指令，使用其学习结果，不依赖于运算或估计就能够自动地且正确地求出相对于机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态的向机械各轴的指令。

系统170’可以具有使机器学习装置120(或者100)存在于网络172所准备的云服务器中等的结构。根据该结构，不管多个机械160’各自存在的位置、时期如何，在需要时都能够第所需数量的机械160’与机器学习装置120(或者100)进行连接。

从事系统170、170’的操作员可以在机器学习装置120(或者100)开始进行学习之后的适当的时期，执行判断机器学习装置120(或者100)学习向机械各轴的指令的到达率(即向机械各轴的指令的可靠性)是否到达要求水平。

<实施方式3>

图12是表示将上述控制装置1(或者2)用作一个要素的控制系统300的一例的图。控制系统300具有：CAD310、CAM320、CNC330。在此，CNC330为控制装置1(或者2)。

CAD 310制作加工工件的模型数据。CAM 320将由CAD 310制作的模型数据变换为加工程序。加工程序的形式存在以下两种：[1]向各轴的指令形式、即指定机械各轴的活动的不具有冗余自由度的形式；[2]刀具位置和姿势形式、即具有冗余自由度的形式。[1]向各轴的指令形式的程序例如被记述为以下示出的形式(2)。在此，“X_Y_Z_”表示直线轴位置或者刀具位置，“B_C_”表示旋转轴的角度。[2]刀具位置和姿势形式的程序例如被记述为以下示出的形式(3)。在此，“X_Y_Z_”表示刀具位置，“I_J_K_”表示刀具姿势。此外，输出[1]或者[2]中的哪一个形式的程序依赖于CAM 320所具备的功能、设定等。

X_Y_Z_B_C_；···(2)

X_Y_Z_I_J_K_；···(3)

CNC330获取CAM320输出的加工程序[1]或者[2]([3]或者[4])，分析获取到的加工程序而生成插值数据。插值数据的形式存在以下两种：[5]向各轴的指令形式、即指定机械各轴的活动的不具有冗余自由度的形式；[6]刀具位置和姿势形式、即具有冗余自由度的形式。[5]向各轴的指令形式的插值数据例如被记述为以下示出的形式(4)。在此，“X_Y_Z_”表示直线轴位置，“B_C_”表示旋转轴的角度。[6]刀具位置和姿势形式的插值数据例如被记述为以下示出的形式(5)。在此，“X_Y_Z_”表示刀具位置，“I_J_K_”表示刀具姿势。

X_Y_Z_B_C_；···(4)

X_Y_Z_I_J_K_；···(5)

CNC330在从加工程序[2](具有冗余自由度)生成插值数据[5](无冗余自由度)的情况下，向机器学习装置100或者120的状态观测部106输入表示当前机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态的状态变量S，将与此对应的机械各轴的指令作为学习部110的输出而得到。能够将该输出用作插值数据[5]。

接着，CNC330根据所生成的插值数据[5]或者[6]([7]或者[8])，生成向机械各轴的指令数据[9]。此外，向机械各轴的指令[9]不具有冗余自由度。[9]向机械各轴的指令例如被记述为以下示出的形式(6)。在此，“X_Y_Z_”表示直线轴位置，“B_C_”表示旋转轴的角度。

X_Y_Z_B_C_；···(6)

CNC330在从插值数据[6](具有冗余自由度)生成向机械各轴的指令[9](无冗余自由度)的情况下，向机器学习装置100或者120的状态观测部106输入表示当前机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态的状态变量S，将与此对应的机械各轴的指令作为学习部110的输出而得到。能够将该输出用作向机械各轴的指令[9]。

此外，在使CNC330的机器学习装置100或者120进行学习时也能够利用控制系统300。例如，CNC330将CAM320输出的加工程序[3]或者[4]全部变换为插值数据[6](具有冗余自由度)。

然后，从自由度中随机地选择一个动作、即向机械各轴的指令，通过示为第一或者第二实施方式的方法来评价加工结果，从而构建学习模型。

以上，说明了本发明的实施方式，但是本发明并不仅限于上述实施方式的示例，可以通过适当地进行变更以各种方式来实施。

例如，机器学习装置100、120所执行的学习算法、机器学习装置120所执行的运算算法、控制装置1、2所执行的控制算法等并不限定于上述算法，能够采用各种算法。

另外，在上述实施方式中，说明了控制装置1(或者2)和机器学习装置100(或者120)具有不同的CPU的装置，但是机器学习装置100(或者120)也可以通过控制装置1(或者2)所具备的处理器以及存储于存储装置的系统和程序来实现。

另外，在上述实施方式中，虽然示出了利用表示机械各轴的活动的数据即位置、速度、加速度、加加速度来作为状态变量S的示例，但是既可以仅将这些数据的一部分用作状态变量S，也可以将表示机械各轴的活动的其它数据用作状态变量S。另外，在上述实施方式中，示出了利用表示加工结果的数据即刀具的速度和位置(或者周期、加工精度以及加工面质量)来作为判断数据D的示例，但是既可以仅将这些数据的一部分用作判断数据D，也可以将表示加工结果的其它数据用作判断数据D。

另外，在上述实施方式中，示出了使用作为判断数据D的刀具的速度和位置来计算回报R的示例(图6)、以及使用作为判断数据D的周期、加工精度以及加工面质量来计算回报R的示例(图7A和图7B)。但是，本发明并不限定于此，既可以仅使用这些判断数据D的一部分来计算回报R，也可以使用表示加工结果的其它判断数据D来计算回报R。即，只要将在使向机械各轴的指令优化时应该考虑的要素、即与试图得到的加工结果有关的判断数据D使用于回报R的计算即可。例如如果目的仅为缩短加工时间，则只要仅将与加工时间有关的刀具的速度、周期用作判断数据D，计算回报R即可。如果目的为加工时间和加工精度这两者，则只要将与加工时间有关的刀具的速度、周期以及与加工精度有关的刀具的位置、加工精度两者用作判断数据D，计算回报R即可。

另外，在上述实施方式中，主要示出了学习部110构建表示机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态与向机械各轴的指令的相关的学习模型的示例。但是，本发明并不限定于此，学习部110还能够构建表示机械各轴的活动(位置、速度、加速度、加加速度等)或者程序的执行状态与插值数据的相关的学习模型。

另外，在实施方式1中主要说明了基于学习的模型的构建方法，在实施方式2中主要说明了一边进行加工(向机械各轴的指令的输出)一边进行学习的方法，但是在实际加工中，也可以不进行新学习，重复使用通过上述方法构建的学习模型而使控制装置1(或者2)运转。

另外，在上述实施方式中，示出了控制装置1(或者2)重复进行实际加工来进行学习的示例，但是本发明并不限定于此，也可以重复进行加工模拟来进行学习。

另外，基本上优选按每个工件来实施学习。这是由于如果工件不同，则向最佳的机械各轴的指令也应该不同。然而，还可以将现有学习模型用于类似工件的加工。类似工件是指例如仅直径与成为学习对象的工件不同等加工上的差异较小的工件。

另外，也可以将工件分割为多个部分，对每个部分实施学习。此时，还能够按每个部分区分加工目的。即，在试图以质量为重点加工一部分、以速度为重点加工一部分的情况下，在各部分中使用不同的判断数据D，能够制作不同的学习模型。

以上，说明了本发明的实施方式，但是本发明并不限定于上述实施方式的示例，可以通过适当地进行变更，以其它方式来实施。

Claims

1.一种控制装置，其输出具有冗余自由度的机械各轴的指令，其特征在于，

该控制装置具备学习上述机械各轴的指令的机器学习装置，

上述机器学习装置具备：

状态观测部，其将表示上述机械各轴的活动或者程序的执行状态的数据作为表示环境当前状态的状态变量来进行观测；

判断数据获取部，其获取表示加工结果的适当与否判断结果的判断数据；以及

学习部，其使用上述状态变量和上述判断数据，将上述机械各轴的活动或者程序的执行状态与上述机械各轴的指令关联起来进行学习。

2.根据权利要求1所述的控制装置，其特征在于，

上述状态变量包括位置、速度、加速度以及加加速度中的至少一个，作为表示上述机械各轴的活动的数据。

3.根据权利要求1所述的控制装置，其特征在于，

上述判断数据包括刀具的速度和位置中的至少任一个的适当与否判断结果。

4.根据权利要求1所述的控制装置，其特征在于，

上述判断数据包括周期、加工精度以及加工面质量中的至少任一个的适当与否判断结果。

5.根据权利要求1所述的控制装置，其特征在于，

上述学习部具备：

回报计算部，其求出与上述适当与否判断结果相关联的回报；以及

价值函数更新部，其使用上述回报，对表示上述机械各轴的指令相对于上述机械各轴的活动或者程序的执行状态的价值的函数进行更新。

6.根据权利要求1所述的控制装置，其特征在于，

上述学习部以多层结构运算上述状态变量和上述判断数据。

7.根据权利要求1所述的控制装置，其特征在于，

该控制装置还具备：决策部，其根据上述学习部的学习结果，输出表示上述机械各轴的指令的指令值。

8.根据权利要求1所述的控制装置，其特征在于，

上述学习部使用从多个机械得到的上述状态变量和上述判断数据，学习上述机械各轴的指令。

9.根据权利要求1所述的控制装置，其特征在于，

上述机器学习装置存在于云服务器。

10.一种学习装置，学习具有冗余自由度的机械各轴的指令，其特征在于，该学习装置具备：