CN108803499B

CN108803499B - 控制装置以及机器学习装置

Info

Publication number: CN108803499B
Application number: CN201810401634.6A
Authority: CN
Inventors: 堀口幸一郎; 辻川敬介
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2017-04-28
Filing date: 2018-04-28
Publication date: 2020-10-02
Anticipated expiration: 2038-04-28
Also published as: JP2018190068A; US10444731B2; DE102018003266B4; JP6542833B2; CN108803499A; US20180314233A1; DE102018003266A1

Abstract

本发明涉及控制装置以及机器学习装置，提供在主轴产生速度变化的情况下也能够进行高精度的同步控制的控制装置以及机器学习装置。上述控制装置具备对针对主轴的动作状态的该主轴未来预测位置进行学习的机器学习装置，上述机器学习装置具备：状态观测部，其将表示主轴的未来预测位置的主轴预测位置数据以及表示主轴的动作状态的主轴动作状态数据作为表示环境的当前状态的状态变量来进行观测；判定数据获取部，其获取表示从轴的同步误差的适当与否判定结果的判定数据；以及学习部，其使用状态变量和判定数据，将主轴的未来预测位置与主轴动作状态数据关联起来进行学习。

Description

控制装置以及机器学习装置

技术领域

本发明涉及控制装置以及机器学习装置，特别是涉及进行针对外部轴的高精度的同步控制的控制装置以及机器学习装置。

背景技术

以往，进行着以下同步控制：使用传感器等来检测主轴的位置从而求出主轴的实际的位置(实际位置)，以与该实际位置同步的方式将同步指令施加到从轴(例如，日本特开2016-004435号公报等)。

图8是对相对于主轴的实际位置的从轴的指令位置与实际位置之间的关系进行例示的图。如图8所示，在同步控制中，(1)使用传感器等来检测主轴的实际位置；(2)对从轴进行进行相对于检测出的实际位置同步的指令；(3)此时由于从轴的实际位置到达在经过由伺服延迟等引起的延迟时间之后进行指令的位置，因此在主轴的实际位置与从轴的实际位置之间产生由该延迟时间引起的同步误差。

为了消除这种同步误差，在进行同步控制时，如图9所示，(1)预测已考虑由从轴的伺服延迟等引起的延迟时间的主轴的未来位置；(2)对从轴进行使与主轴的预测位置进行同步的指令。在预测主轴的未来位置时，例如使用过去的主轴的移动速度的平均值等，假设为仅在预测时间内以等速进行活动从而进行求取(预测位置＝(主轴平均速度×预测时间)+主轴当前位置)。

然而，当主轴的移动速度中存在加速、减速、停止等速度变化时，在同步控制中主轴的未来位置的预测会产生偏差。在该情况下，基于主轴的预测位置的从轴的同步位置与基于主轴的实际位置的从轴的正确的同步位置之间的差变大，从而产生同步误差。例如图10所示，(1)在主轴变更移动速度的情况下，(2)主轴的未来位置的预测与主轴的未来实际位置产生偏离，(3)成为在直到将从轴的位置向基于主轴实际位置的从轴的正确的同步位置进行修正为止的期间将产生同步误差的状态。

针对这种问题，在日本特开2016-004435号公报中存在以下问题：虽然通过在同步控制过程中切换位置控制的增益来抑制主轴产生速度变化时的同步误差的增大，但是存在无法抑制同步误差本身。

发明内容

因此，本发明的目的在于，提供在主轴产生速度变化的情况下也能够高精度地进行同步控制的控制装置以及机器学习装置。

在本发明的控制装置中，对过去的预定期间内的相对于主轴实际位置的主轴在预定时间之后的未来位置的对应关系进行机器学习。本发明的控制装置根据机器学习后的结果，使用过去的预定期间内的主轴的实际位置来预测主轴在预定时间之后的未来位置，使从轴相对于预测出的该主轴的未来位置进行同步，由此实现高精度的同步控制。

而且，本发明的一个方式是一种控制装置，其以与主轴的位置同步的方式对从轴进行同步控制，该控制装置具备对针对上述主轴的动作状态的该主轴的未来预测位置进行学习的机器学习装置，上述机器学习装置具备：状态观测部，其将表示上述主轴的未来预测位置的主轴预测位置数据、以及表示上述主轴的动作状态的主轴动作状态数据作为表示环境的当前状态的状态变量来进行观测；判定数据获取部，其获取表示上述从轴的同步误差的适当与否判定结果的判定数据；以及学习部，其使用上述状态变量和上述判定数据，将上述主轴的未来预测位置与上述主轴动作状态数据关联起来进行学习。

本发明的其它方式是一种机器学习装置，其对在使从轴相对于主轴的位置进行同步的机械的同步控制中的、针对上述主轴的动作状态的该主轴的未来预测位置进行学习，该机器学习装置具备：状态观测部，其将表示上述主轴的未来预测位置的主轴预测位置数据以及表示上述主轴的动作状态的主轴动作状态数据作为表示环境的当前状态的状态变量来进行观测；判定数据获取部，其获取表示上述从轴的同步误差的适当与否判定结果的判定数据；以及学习部，其使用上述状态变量和上述判定数据，将上述主轴的未来预测位置与上述主轴动作状态数据关联起来进行学习。

根据本发明，可以提供即使在主轴产生速度变化的情况下也能够高精度地进行同步控制的控制装置以及机器学习装置。

附图说明

根据参照附图的以下实施例的说明，将使本发明的上述和其它目的以及特征更加清楚。在这些图中：

图1是第一实施方式的控制装置的概要功能框图。

图2是表示控制装置的一个方式的概要功能框图。

图3是表示机器学习方法的一个方式的概要流程图。

图4A是说明神经元的图。

图4B是说明神经网络的图。

图5是第二实施方式的控制装置的概要功能框图。

图6是表示部件安装系统的一个方式的概要功能框图。

图7是表示部件安装系统的其它方式的概要功能框图。

图8是说明现有技术的从轴相对于主轴的同步控制的图。

图9是说明现有技术的从轴相对于主轴的同步控制的图。

图10是针对现有技术的从轴相对于主轴的同步控制的问题点进行说明的图。

具体实施方式

以下，对本发明的实施方式以及附图进行说明。

图1是第一实施方式的控制装置10的概要功能框图。控制装置10例如能够安装为进行以与主轴的位置进行同步的方式控制从轴的同步控制的控制装置。控制装置10具备机器学习装置20，该机器学习装置20包括用于通过所谓机器学习自己对相对于主轴的过去的动作状态的该主轴的未来位置进行学习的软件(学习算法等)以及硬件(计算机的CPU等)。控制装置10所具备的机器学习装置20进行学习的结构相当于表示主轴的过去的动作状态与该状态下的该主轴的未来位置之间的相关性的模型结构。

如图1的功能块所示，控制装置10所具备的机器学习装置20具备：状态观测部22，其对包括表示针对主轴的过去的动作状态进行预测的主轴的未来位置的主轴预测位置数据S1以及表示主轴的过去的动作状态的主轴动作状态数据S2的表示环境的当前状态的状态变量S进行观测；判定数据获取部24，其获取表示根据预测出的主轴未来位置来进行同步控制的从轴的位置的同步误差的适当与否判定结果的判定数据D；以及学习部26，其使用状态变量S和判定数据D，将主轴动作状态数据S2与主轴预测位置数据S1关联起来进行学习。

状态观测部22例如能够构成为计算机的CPU的一个功能。或者，状态观测部22例如能够构成为用于使计算机的CPU发挥功能的软件。在状态观测部22所观测的状态变量S中，主轴预测位置数据S1是从控制装置10对从轴的位置进行指令的时刻起在从轴的伺服延迟等预定延迟时间T₂后的未来的主轴的被预测的位置。主轴预测位置数据S1可以在学习的初期，基于例如由熟练的作业人员针对主轴的位置给予控制装置10的从轴的教示位置来考虑并计算伺服延迟等，或者使用利用现有技术预测出的主轴的预测位置。另外，主轴预测位置数据S1在学习进行某种程度的阶段，可以使用机器学习装置20根据学习部26的学习结果在前一个处理循环中预测出的主轴的预测位置，在该情况下，机器学习装置20在每一个处理循环中将预测出的主轴的预测位置暂时储存到内部存储器(未图示)，状态观测部22也可以从内部存储器获取机器学习装置20在前一个处理循环中预测出的主轴的预测位置。

另外，状态变量S中，主轴动作状态数据S2例如可以使用主轴的过去的位置系列，该主轴的过去的位置系列是使用附设于具备主轴的机械上的第一测量装置(未图示)所实际测量出的主轴的实际位置的值、从控制主轴的控制装置中获取的主轴的实际位置等而生成的。主轴动作状态数据S2例如可以使用从当前时刻起过去仅追溯到预先决定的预定时间T₁的期间内的、每隔固定时间t的主轴的实际位置的集合。预定时间T₁优选至少比主轴的动作中等速运动持续的期间长。主轴动作状态数据S2并不限于主轴的位置，还能够设为主轴的速度、加速度、扭矩、电流、电动机温度、对主轴的指令(位置指令、速度指令、扭矩指令)等数据中的任一个或者多个。

第一测量装置是用于测量主轴的实际位置的测量装置。第一测量装置例如测量从具备主轴的机械的预定基准位置起的距离等，基于与第一测量装置测量出的预定基准位置的距离来运算主轴的实际位置。该运算例如能够由控制装置10进行或者由状态观测部22自己进行。作为第一测量装置能够采用旋转编码器、线性编码器、光学摄像装置、红外线激光器以及超声波测量仪等。

判定数据获取部24例如能够构成为计算机的CPU的一个功能。或者，判定数据获取部24例如能够构成为用于使计算机的CPU发挥功能的软件。当实际进行从轴的同步控制之后，在伺服延迟等时间之后从轴移动到基于同步控制的指令位置的时刻，求出基于主轴的实际位置例如从第一测量装置和控制主轴的控制装置获取的主轴实际位置的从轴的正确同步位置，对同步控制的指令位置与正确同步位置之间的差(所谓同步误差)进行运算，由此能够获取由判定数据获取部24获取的判定数据D。判定数据D是表示在状态变量S的条件下执行同步控制时的结果的指标，间接地表示同步控制的状态。

这样，在控制装置10所具备的机器学习装置20进行学习的期间、环境中，实施主轴动作状态数据S2的获取、从轴的同步控制的实施、以及作为判定数据D的同步误差的获取。

学习部26例如能够构成为计算机的CPU的一个功能。或者，学习部26例如能够构成为用于使计算机的CPU发挥功能的软件。学习部26按照被总称为机器学习的任意的学习算法，对针对主轴的过去的动作状态的该主轴的未来位置进行学习。对于将针对主轴的位置的从轴的同步控制进行多次循环这一情况，学习部26能够反复执行基于包含上述状态变量S和判定数据D的数据集合的学习。在对于针对主轴位置的从轴的同步控制的学习循环的反复中，将状态变量S中的主轴预测位置数据S1作为直到前一个学习循环中得到的主轴的预测位置，另外将判定数据D作为基于所决定的该主轴的预测位置的从轴的同步控制中的同步误差的适当与否判定结果。

通过重复进行这种学习循环，学习部26能够自动地识别对主轴的过去的动作状态(主轴动作状态数据S2)与主轴的未来预测位置之间的相关性进行暗示的特征。在开始进行学习算法时，主轴动作状态数据S2与主轴的未来预测位置之间的相关性实质上是未知的，但是学习部26随着进行学习而逐渐识别特征并解释相关性。当主轴动作状态数据S2与主轴的未来预测位置之间的相关性被解释为在某种程度上可信赖的水准时，由学习部26反复进行输出的学习结果能够用于进行所谓的行动的选择(也就是决策)，即相对于当前状态(也就是主轴的动作状态)应该根据怎样的主轴的未来预测位置进行从轴的同步控制。也就是说，学习部26随着进行学习算法而可以使主轴的动作状态与相对于该状态的主轴的未来预测位置之间的相关性逐渐接近最佳解。而且，随着使基于学习部26的、主轴的动作状态与针对该状态的主轴的未来预测位置之间的相关性的学习最优化，能够对主轴的动作状态进行更适当的从轴的同步控制。

如上所述，控制装置10所具备的机器学习装置20使用由状态观测部22观测的状态变量S和由判定数据获取部24获取的判定数据D，学习部26按照机器学习算法，对相对于主轴的过去的动作状态的该主轴的未来位置进行学习。状态变量S由主轴预测位置数据S1和主轴动作状态数据S2这种不易受到干扰影响的数据构成，另外，通过求出基于主轴的未来预测位置而进行同步控制时的从轴的同步误差来唯一地求出判定数据D。对于主轴动作状态数据S2，虽然依赖于例如第一测量装置的能力或从主轴的控制装置获取的值的精度，但是期待能够观测其本身高精度的主轴动作状态数据S2。另外，对于判定数据D，也期待依赖于第一测量装置的能力或从主轴的控制装置获取的值的精度，能够获取高精度的判定数据D。因而，根据控制装置10所具备的机器学习装置20，使用学习部26的学习结果，由此不依靠运算或估算就能够自动地且正确地求出与主轴的动作状态对应的该主轴的未来预测位置。

如果不依靠运算或估算就能够自动地求出与主轴的动作状态对应的该主轴的未来预测位置，则仅通过在开始进行从轴的同步控制之前掌握主轴的动作状态(主轴动作状态数据S2)，就能够迅速地决定主轴的未来预测位置。

根据上述实施例，特别是在主轴以预定周期进行循环动作的情况下，通过重复进行学习，从而能够高精度地预测相对于主轴的动作状态的未来预测位置。

另外，即使在主轴中减速机的齿轮产生磨损或劣化等、或者由于温度变化或振动等对主轴的动作造成影响，从而使主轴的速度变动产生变化，也能够对与主轴的速度变动的变化相应的该主轴的未来预测位置进行学习，因此能够期待根据该学习结果来预测追随主轴的速度变动的变化的主轴的未来位置。

作为控制装置10所具备的机器学习装置20的一个变形例，状态观测部22可以进一步将包含从轴的实际位置等的从轴动作状态数据S3观测为状态变量S。从轴动作状态数据S3例如可以使用从当前时刻起仅向过去追溯预先决定的预定时间T₃的期间内的、每隔固定时间t的从轴的实际位置的集合。状态观测部22例如能够从由控制装置10控制的从轴的伺服控制部等中获取从轴动作状态数据S3。在设为这种结构的情况下，学习部26能够将主轴的未来预测位置与主轴动作状态数据S2和从轴动作状态数据S3这两者关联起来进行学习。从轴动作状态数据S3并不限于从轴的位置，还能够设为从轴的速度、加减速、扭矩、电流、电动机速度、主轴与从轴的同步关系数据等数据中的任一个或者多个。

根据上述变形例，机器学习装置20除了主轴的动作状态以外还能够与从轴的动作状态相关联地对主轴的未来预测位置进行学习，因此即使在主轴的动作状态未发生变化的情况下，通过对从轴施加干扰等而使动作状态发生变化，也能够对该状态下用于从轴的同步的最佳的主轴的未来预测位置进行学习。

作为控制装置10所具备的机器学习装置20的其它变形例，学习部26使用具有相同结构的多个机械分别得到的状态变量S和判定数据D，能够对这些机械中的针对主轴的动作状态的该主轴的未来预测位置进行学习。根据该结构，由于能够增加包括在固定时间内得到的状态变量S和判定数据D的数据集合的量，因此可以将更多种数据集合作为输入，并提高机械中的针对主轴的动作状态的该主轴的未来预测位置的学习速度和可靠性。

在具有上述结构的机器学习装置20中，由学习部26执行的学习算法没有特别限定，可以采用作为机器学习而公知的学习算法。图2是图1示出的控制装置10的一个方式，作为学习算法的一例表示具备执行强化学习的学习部26的结构。强化学习是指，观测学习对象所存在的环境的当前状态(即输入)并且在当前状态下执行预定行动(即输出)，以试错的方式反复进行对该行动赋予某些回报这样的循环，使回报总计为最大化的方针(在本申请的机器学习装置中针对主轴的动作状态的该主轴的未来预测位置)作为最佳解来进行学习。

在图2示出的控制装置10所具备的机器学习装置20中，学习部26具备：回报计算部28，其根据状态变量S来求出与从轴的同步控制的适当与否判定结果(相当于在下一个学习循环中使用的判定数据D)相关联的回报R；以及价值函数更新部30，其使用回报R，对表示针对主轴的动作状态的该主轴的未来预测位置的价值的函数Q进行更新。学习部26通过由价值函数更新部30重复进行函数Q的更新来对针对主轴的动作状态的该主轴的未来位置进行学习。

说明学习部26所执行的强化学习的算法的一例。该例子的算法是作为Q学习(Q-learning)而公知的方法，就是将行动主体的状态s和在该状态s下能够选择行动主体的行动a作为独立变量，学习对在状态s下选择了行动a的情况下的行动的价值进行表示的函数Q(s,a)的方法。在状态s下选择价值函数Q为最高的行动a的情况成为最佳解。在状态s与行动a之间的相关性为未知的状态下开始进行Q学习，通过重复进行在任意的状态s下选择各种行动a的试错，由此反复更新价值函数Q，从而接近最佳解。在此，构成为当作为在状态s下选择了行动a的结果而环境(即状态s)发生变化时，得到与该变化相对应的回报(即行动a的加权)r，以选择得到更高的回报r的行动a的方式来引导学习，由此能够在较短的时间内使价值函数Q接近最佳解。

价值函数Q的更新式通常可以表示为下述数学式1。在数学式1中，s_t和a_t分别为时刻t的状态和行动，通过行动a_t而状态变换为s_t+1。r_t+1是状态从s_t变化为s_t+1而得到的回报。maxQ的项表示进行了在时刻t+1成为最大的价值Q(也考虑在时刻t)行动a时的Q。α与γ分别为学习系数和折扣率，任意设定为0<α≤1、0<γ≤1。

[数学式1]

在由学习部26执行Q学习的情况下，由状态观测部22观测的状态变量S以及由判定数据获取部24获取的判定数据D对应于更新式的状态s，像是应该如何对针对当前状态(即主轴的动作状态)的主轴的未来预测位置进行变更这样的行动对应于更新式的行动a，由回报计算部28求出的回报R对应于更新式的回报r。由此，价值函数更新部30通过使用了回报R的Q学习对表示针对当前状态的主轴的未来预测位置的价值的函数Q进行重复更新。

由回报计算部28求出的回报R例如可以在决定针对主轴的动作状态的该主轴的未来预测位置之后，在根据该主轴的未来预测位置来实施从轴的同步控制时，在从轴的同步误差被判定为“适当”的情况下(例如在从轴的同步误差处于能够允许的范围内的情况下等)设为正(plus)的回报R，在决定针对主轴的动作状态的该主轴的未来预测位置之后，在根据该主轴的未来预测位置来实施从轴的同步控制时，在从轴的同步误差被判定为“否”的情况下(例如从轴的同步误差处于能够允许的范围外的情况下等)设为负(minus)的回报R。正负的回报R的绝对值即可以彼此相同也可以不同。另外，作为判定条件，也可以将判定数据D内包含的多个值进行组合来判定。

另外，不只是将从轴的同步误差的适当与否判定结果设为“适当”和“否”这两种，还可以设定为多个阶段。例如，可以设为以下结构：在从轴的同步误差的允许范围的最大值为E_max的情况下，在从轴的同步误差E为0≤E<E_max/5时赋予回报R＝5，在E_max/5≤E<E_max/2时赋予回报R＝2，在E_max/2≤E≤E_max时赋予回报R＝1。进而，还可以设为在学习的初始阶段将E_max设定为较大，并随着进行学习而缩小E_max的结构。

价值函数更新部30可以具有将状态变量S、判定数据D以及回报R与用函数Q表示的行动价值(例如数值)相关联地进行整理过的行动价值表。在该情况下，由价值函数更新部30更新函数Q的行为与由价值函数更新部30更新行动价值表的行为意义相同。由于在开始进行Q学习时环境的当前状态与主轴的未来预测位置之间的相关性未知，因此在行动价值表中，各种状态变量S、判定数据D以及回报R以与随机决定的行动价值的值(函数Q)相关联的方式进行准备。此外，回报计算部28如果已知判定数据D，则能够立即计算出与该判断数据D对应的回报R，并将计算出的值R写入行动价值表。

当使用与从轴的同步误差的适当与否判定结果相应的回报R来进行Q学习时，向选择能够得到更高回报R的行动的方向引导学习，根据作为在当前状态下执行了所选择的行动的结果而发生变化的环境状态(即状态变量S和判定数据D)，重写针对在当前状态下进行的行动的行动价值的值(函数Q)，并更新行动价值表。通过反复进行该更新，在行动价值表中显示的行动价值的值(函数Q)以越是适当的行动则成为越大的值的方式被重写。这样，未知的环境的当前状态(主轴的动作状态)与针对该当前状态的行动(主轴的未来预测位置)之间的相关性逐渐变得清楚。也就是说，通过行动价值表的更新，主轴的动作状态与该主轴的未来预测位置之间的关系逐渐接近最佳解。

参照图3，进一步说明由学习部26执行的上述Q学习的流程(即机器学习方法的一个方式)。首先，在步骤SA01中，价值函数更新部30一边参照该时刻的行动价值表，一边通过操作员的教示、或者通过基于现有技术的主轴的未来位置的预测方法、再或者除此以外对随机的值进行加减运算等来选择主轴的未来预测位置，作为在由状态观测部22观测到的状态变量S所示的当前状态下进行的行动。接着，价值函数更新部30在步骤SA02中导入由状态观测部22观测的当前状态的状态变量S，在步骤SA03中导入由判定数据获取部24获取的当前状态的判定数据D。接着，价值函数更新部30在步骤SA04中根据判定数据D，判定主轴的未来预测位置是否适当，在适当的情况下，在步骤SA05中将由回报计算部28求出的正的回报R应用于函数Q的更新式，接着在步骤SA06中使用当前状态下的状态变量S以及判定数据D和回报R和行动价值的值(更新后的函数Q)来更新行动价值表。在步骤SA04中在判定为主轴的未来预测位置并不适当的情况下，在步骤SA07中将由回报计算部28求出的负的回报R应用于函数Q的更新式，接着在步骤SA06中使用当前状态下的状态变量S以及判定数据D和回报R和行动价值的值(更新后的函数Q)来更新行动价值表。学习部26通过重复步骤SA01～SA07来反复更新行动价值表，从而进行针对主轴的动作状态的该主轴的未来预测位置的学习。

在进行上述强化学习时，例如还能够使用神经网络来代替Q学习。图4A示意性地示出神经元的模型。图4B示意性地示出将图4A所示的神经元进行组合而构成的三层神经网络的模型。神经网络例如能够由模仿神经元的模型的运算装置或存储装置等构成。

图4A所示的神经元输出针对多个输入x(在此作为一例，输入为x₁～输入x₃)的结果y。对各输入x₁～x₃乘以与该输入x对应的权重w(w₁～w₃)。由此，神经元输出用以下数学式2来表现的输出y。此外，在数学式2中，输入x、输出y以及权重w全部为矢量。另外，θ为偏压，f_k为活化函数。

[数学式2]

图4B所示的三层神经网络从左侧输入多个输入x(在此作为一例，输入x₁～输入x₃)，从右侧输出结果y(在此作为一例，结果y₁～结果y₃)。在图示的示例中，对与输入x1、x2、x3分别对应的权重(总称表示为w1)进行乘法运算，各输入x1、x2、x3均被输入到三个神经元N11、N12、N13。

在图4B中，将神经元N11～N13的各输出被总称表示为z1。z1可以被视作提取出输入矢量的特征量的特征矢量。在图示的示例中，对与特征矢量z1分别对应的权重(总称表示为w2)进行乘法运算，各特征矢量z1均被输入到两个神经元N21、N22。特征矢量z1表示权重w1与权重w2之间的特征。

在图4B中，将神经元N21～N22的各输出被总称表示为z2。z2可以被视作提取了特征矢量z1的特征量的特征矢量。在图示的示例中，对与特征矢量z2分别对应的权重(总称表示为w3)进行乘法运算，各特征矢量z2均被输入到三个神经元N31、N32、N33。特征矢量z2表示权重w2与权重w3之间的特征。最后，神经元N31～N33分别输出结果y1～y3。

此外，还可以使用利用了形成为三层以上的层的神经网络的所谓深度学习的方法。

在控制装置10所具备的机器学习装置20中，将状态变量S和判定数据D作为输入x，学习部26进行按照上述神经网络的多层构造的运算，由此可以输出主轴的未来预测位置(结果y)。此外，神经网络的动作模式存在学习模式和价值预测模式，例如可以通过学习模式而使用学习数据集来对权重W进行学习，使用学习到的权重W并在价值预测模式下进行行动的价值判定。此外，还可以在价值预测模式下进行检测、分类、推论等。

上述控制装置10的结构能够记述为由计算机的CPU执行的机器学习方法(或者软件)。该机器学习方法是对针对主轴的动作状态的该主轴的未来预测位置进行学习的机器学习方法，该方法具有以下步骤：计算机的CPU将表示主轴的未来预测位置的主轴预测位置数据S1以及表示主轴的动作状态的主轴动作状态数据S2作为表示进行从轴的同步控制的环境的当前状态的状态变量S来进行观测的步骤；获取表示从轴的同步误差的适当与否判定结果的判定数据D的步骤；以及使用状态变量S和判定数据D，将主轴的未来预测位置与主轴动作状态数据S2关联起来进行学习的步骤。

图5表示第二实施方式的控制装置40。控制装置40具备：机器学习装置50；状态数据获取部42，其获取由状态观测部22观测的状态变量S的主轴预测位置数据S1以及主轴动作状态数据S2作为状态数据S0；以及同步控制部44，其根据由机器学习装置50输出的主轴的未来预测位置P来进行从轴的同步控制。状态数据获取部42所获取的状态数据S0还可以包括从轴动作状态数据S3。状态数据获取部42可以通过第一测量装置、从主轴或从轴的控制装置获取的值、由操作员进行的适当的数据输入等，获取状态数据S0。

控制装置40所具有的机器学习装置50除了用于通过机器学习自己对针对主轴的动作状态的主轴的未来预测位置进行学习的软件(学习算法等)和硬件(计算机的CPU等)以外，还包括用于输出针对主轴的动作状态的主轴的未来预测位置的软件(运算算法等)和硬件(计算机的CPU等)。控制装置40所包括的机器学习装置50还可以具有由一个通用CPU执行学习算法、运算算法等全部软件的结构。

决策部52例如能够构成为计算机的CPU的一个功能。或者，决策部52例如能够构成为用于使计算机的CPU发挥功能的软件。决策部52对控制装置40输出由学习部26学习到的针对主轴的动作状态的该主轴的未来预测位置P。控制装置40所具备的同步控制部44根据由决策部52输出的主轴的未来预测位置P，来生成用于对从轴进行同步控制的指令值C，并对从轴或机械输出所生成的指令值C。在同步控制部44根据由决策部52输出的主轴的未来预测位置P来生成从轴的同步控制的指令值C并对从轴或机械进行输出的情况下，与此相应地，环境的状态发生变化。

状态观测部22在下一个学习循环中，对基于由决策部52决定的主轴的未来预测位置P的、在向环境输出基于同步控制部44从轴的同步控制的指令值而发生了变化的状态变量S进行观测。学习部26使用发生了变化的状态变量S，例如更新价值函数Q(即行动价值表)，由此对针对主轴的动作状态的该主轴的未来预测位置进行学习。此外，此时，状态观测部22并不是从状态数据获取部42所获取的状态数据S0中获取主轴预测位置数据S1，也可以如第一实施方式所说明那样从机器学习装置20的内部存储器中观测主轴预测位置数据S1。

决策部52输出学习到的针对主轴的动作状态的该主轴的未来预测位置P，并且基于所输出的主轴的未来预测位置P同步控制部44生成从轴的同步控制的指令值C并向从轴或者机械进行输出。通过重复进行该循环，机器学习装置50对针对主轴的动作状态的该主轴的未来预测位置进行学习，从而逐渐提高自己所决定的针对主轴的动作状态的该主轴的未来预测位置的可靠性。

具有上述结构的控制装置40所具备的机器学习装置50实现与上述机器学习装置20相等的效果。特别是，机器学习装置50能够通过决策部52的输出(经由控制装置40)使环境的状态发生变化。另一方面，在机器学习装置20中，可以在外部装置(机械、机械的控制装置)中寻求相当于用于使学习部26的学习结果反映于环境的决策部的功能。

图6表示具备机械60的一个实施方式的系统70。系统70具备：至少具有相同机械结构的多个机械60、60’、以及将这些机械60、60’相互连接的网络72，多个机械60、60’中的至少一个构成为具备上述控制装置40的机械60。另外，系统70可以包括不具备控制装置40的机械60’。机械60、60’具有用于使从轴相对于主轴的动作进行同步控制而所需的通常的结构。

在具有上述结构的系统70中，多个机械60、60’中具备控制装置40的机械60使用学习部26的学习结果，不依靠运算或估算就能够自动地且正确地求出与主轴的动作状态相应的机械60、60’的该主轴的未来预测位置。另外，可以构成为至少一个机械60的控制装置40根据对其它多个机械60、60’分别得到的状态变量S和判定数据D，对在全部机械60、60’中共通的针对主轴的动作状态的该主轴的未来预测位置进行学习，并由全部机械60、60’共享其学习结果。

因而，根据系统70，可以将更多种的数据集合(包括状态变量S和判定数据D)作为输入，从而提高针对主轴的动作状态的该主轴的未来预测位置的学习速度或可靠性。

图7表示具备机械60’的其它实施方式的系统70’。系统70’具备机器学习装置50(或者20)、具有相同机械结构的多个机械60’、以及将这些机械60’与机器学习装置50(或者20)相互连接的网络72。

在具有上述结构的系统70’中，机器学习装置50(或者20)根据对多个机械60’分别得到的状态变量S和判定数据D，对在全部机械60’中共通的针对主轴的动作状态的该主轴的未来预测位置进行学习，使用其学习结果，从而不依靠运算或估算就能够自动地且正确地求出与主轴的动作状态相应的该主轴的未来预测位置。

系统70’可以具有使机器学习装置50(或者20)存在于在网络72中准备的服务器或单元控制器等中的结构。根据该结构，不管多个机械60’各自所存在的位置或时间日期如何，都可以在需要时将所需数量的机械60’与机器学习装置50(或者20)进行连接。

从事于系统70、70’的操作员在机器学习装置50(或者20)开始进行学习后的适当的时期，能够执行判定由机器学习装置50(或者20)对针对主轴的动作状态的该主轴的未来预测位置进行学习的到达程度(即针对主轴的动作状态的该主轴的未来预测位置的可靠性)是否达到要求水平。

以上，说明了本发明的实施方式，但是本发明并不仅限于上述实施方式的示例，可以通过施加适当的变更而以各种方式来实施。

例如，由机器学习装置20、50执行的学习算法、由机器学习装置50执行的运算算法、由控制装置10、40执行的控制算法等并不限定于上述结构，可以采用各种算法。

另外，在上述实施方式中，虽然示出了机器学习装置20、50在控制装置10、40上通过在线进行机器学习的示例，但是也可以在由控制装置10、40进行的机械的同步控制时将状态数据S和判定数据D记录为日志数据，并收集所记录的日志数据，根据从收集到的日志数据中获取的状态数据S和判定数据D使机器学习装置20、50来进行机器学习。

以上，说明了本发明的实施方式，但是本发明并不限定于上述实施方式的示例，可以通过施加适当的变更而以其它方式来实施。

Claims

1.一种控制装置，其对从轴进行同步控制使得与按照预定的周期进行循环动作的主轴的位置同步，其特征在于，

上述控制装置具备机器学习装置，该机器学习装置学习与上述主轴的动作状态相对的该主轴的未来预测位置，

上述机器学习装置具备：

状态观测部，其观测表示上述主轴的未来预测位置的主轴预测位置数据、以及至少包含上述主轴的过去的位置系列的表示上述主轴的动作状态的主轴动作状态数据来作为表示环境的当前状态的状态变量；

判定数据获取部，其获取表示上述从轴的同步误差的适当与否判定结果的判定数据；以及

学习部，其使用上述状态变量和上述判定数据，将上述主轴的未来预测位置与至少包含上述主轴的过去的位置系列的上述主轴动作状态数据关联起来进行学习。

2.根据权利要求1所述的控制装置，其特征在于，

上述状态观测部还观测表示上述从轴的动作状态的从轴动作状态数据来作为上述状态变量，

上述学习部将上述主轴的未来预测位置与上述主轴动作状态数据和上述从轴动作状态数据这两方关联起来进行学习。

3.根据权利要求1或2所述的控制装置，其特征在于，

上述学习部具备：

回报计算部，其求出与上述适当与否判定结果相关联的回报；以及

价值函数更新部，其使用上述回报，对于表示与上述主轴的动作状态相对的上述主轴的未来预测位置的价值的函数进行更新。

4.根据权利要求1或2所述的控制装置，其特征在于，

上述学习部以多层结构对上述状态变量和上述判定数据进行运算。

5.根据权利要求1或2所述的控制装置，其特征在于，

上述控制装置还具备决策部，该决策部根据上述学习部的学习结果来输出上述主轴的未来预测位置。

6.根据权利要求5所述的控制装置，其特征在于，

对从轴进行基于决策部所输出的上述主轴的未来预测位置的同步指令。

7.根据权利要求1或2所述的控制装置，其特征在于，

上述学习部使用对多个机械分别得到的上述状态变量和上述判定数据，对该多个机械各自的上述主轴的未来预测位置进行学习。

8.根据权利要求1或2所述的控制装置，其特征在于，

上述机器学习装置存在于云服务器或者单元控制器中。

9.一种机器学习装置，其学习机械的同步控制中的与主轴的动作状态相对的该主轴的未来预测位置，上述机械的同步控制使从轴与按照预定的周期进行循环动作的上述主轴的位置同步，其特征在于，

上述机器学习装置具备：

状态观测部，其观测表示上述主轴的未来预测位置的主轴预测位置数据以及至少包含上述主轴的过去的位置系列的表示上述主轴的动作状态的主轴动作状态数据来作为表示环境的当前状态的状态变量；