CN110389556A

CN110389556A - 控制装置以及控制方法

Info

Publication number: CN110389556A
Application number: CN201910308493.8A
Authority: CN
Inventors: 支钞; 陈文杰; 王凯濛; 前田和臣
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2018-04-17
Filing date: 2019-04-17
Publication date: 2019-10-29
Also published as: US20190317472A1; DE102019002644A1

Abstract

本发明提供一种控制装置以及控制方法。对机械的1个以上的轴进行考虑了摩擦的位置控制的控制装置具备：至少取得位置指令及位置反馈的数据取得部；以及基于所述位置指令与所述位置反馈的差即位置偏差来推定进行所述位置控制时的摩擦模型的系数的修正转矩推定部。

Description

控制装置以及控制方法

技术领域

本发明涉及控制装置以及控制方法，尤其是涉及能够确定摩擦模型的系数的控制装置以及控制方法。

背景技术

在包括机床、注塑成型机、激光加工机、放电加工机、工业用机器人等的工业用机械(以下，仅称作机械)的控制中，通过对作用于驱动机构的摩擦力进行补偿，能够得到精密的控制性能。

图11是机床的驱动机构的一例。通过伺服电动机驱动由轴承支承的滚珠丝杠旋转而使平台移动。此时，例如在轴承与滚珠丝杠之间、滚珠丝杠与平台之间作用有摩擦力。换句话说，平台的行为受到摩擦力的影响。

图12是示出摩擦力与驱动机构的行为之间的典型关系的图表。在静止状态(速度＝0)向运动状态转移或者从运动状态向静止状态转移时，摩擦力的变化为非线性。将其称作斯特里贝克效应。根据斯特里贝克效应，机械的定位时间变长。或者产生反转时的轨迹误差(象限突起)。

作为考虑上述那样的非线性的摩擦的补偿时有效的摩擦模型，已知有Lugre模型。根据Lugre模型，能够求出用于抑制非线性的摩擦效果的修正值(修正转矩)。如图13所示，通过将上述修正值与电流指令相加来补偿非线性的摩擦力，能够精密地对控制对象进行控制。该修正处理能够在公知的反馈控制中进行执行。机械的控制装置基于位置指令与位置反馈的偏差、以及速度指令与速度反馈的偏差来决定电流指令。此时，控制装置将通过Lugre模型求出的修正转矩与电流指令相加。

数式1示出Lugre模型。F是成为Lugre模型的输出的修正转矩。v、z是与速度以及位置相关的变量。Fc、Fs、v0、σ0、σ1、σ2是驱动机构所特有的系数。

[数式1]

作为相关技术，在日本特开2004-234327号公报中公开了从摩擦模型得到修正数据的情况。

然而，由于包括Lugre模型在内的摩擦模型的系数因机械、使用环境等的不同而各自不同，因此必须针对每个控制对象单独地确定系数。另外，由于应确定的系数的数量较多，因此系数的确定作业需要较多的精力。因而，谋求一种不花费精力而能够确定摩擦模型的系数的方法。

发明内容

因此，期望能够确定摩擦模型的系数的控制装置以及控制方法。

本发明的一方式是对机械的1个以上的轴进行考虑了摩擦的位置控制的控制装置，该控制装置具备：数据取得部，其至少取得位置指令及位置反馈；以及修正转矩推定部，其基于所述位置指令与所述位置反馈的差即位置偏差来推定进行所述位置控制时的摩擦模型的系数。

本发明的另一方式是对机械的1个以上的轴进行考虑了摩擦的位置控制的控制方法，该控制方法包含：至少取得位置指令及位置反馈的数据取得步骤；以及基于所述位置指令与所述位置反馈的差即位置偏差来推定进行所述位置控制时的摩擦模型的系数的修正转矩推定步骤。

根据本发明，能够提供一种可确定摩擦模型的系数的控制装置以及控制方法。

附图说明

本发明的上述或者其它目的、特征以及优点由参照附图的以下的实施例的说明予以明确。这些附图中：

图1是第一实施方式的控制装置1的概要的硬件结构图。

图2是第一实施方式的控制装置1的概要的功能块图。

图3是第二实施方式、第三实施方式的控制装置1的概要的硬件结构图。

图4是第二实施方式的控制装置1的概要的功能块图。

图5是第二实施方式中的学习部83的功能块图。

图6是示出强化学习的一方式的流程图。

图7A是说明神经元的图。

图7B是说明神经网络的图。

图8是第三实施方式的控制装置1和机器学习装置100的概要的功能块图。

图9是示出装入了控制装置1的系统的一方式的概要的功能块图。

图10是示出装入了机器学习装置120(或者100)的系统的另一方式的概要的功能块图。

图11是示出机床的驱动机构的一例的图。

图12是示出摩擦力与驱动机构的行为之间的关系的图表。

图13是示出利用了摩擦模型的非线性摩擦力的修正方法的一例的图。

图14是示出利用了摩擦模型的非线性摩擦力的修正方法的另一例的图。

图15是示出利用了摩擦模型的非线性摩擦力的修正方法的另一例的图。

具体实施方式

图1是示出本发明的第一实施方式的控制装置1和由控制装置1控制的工业用机械的主要部位的概要的硬件结构图。控制装置1是对包括机床在内的机械进行控制的控制装置。控制装置1具有CPU11、ROM12、RAM13、非易失性存储器14、接口18、总线20、轴控制电路30、伺服放大器40。在控制装置1上连接有伺服电动机50、操作盘60。

CPU11是整体控制控制装置1的处理器。CPU11经由总线20读出储存在ROM12的系统程序，并按照系统程序对整个控制装置1进行控制。

ROM12预先储存了用于执行机械的各种控制等的系统程序(包括用于控制与后述的机器学习装置100之间的交换的通信程序)。

RAM13临时储存临时的计算数据和显示数据、操作员经由后述的操作盘60而输入的数据等。

非易失性存储器14例如由未图示的电池进行支援，即便控制装置1的电源被切断也能够保持存储状态。非易失性存储器14对从操作盘60输入的数据、经由未图示的接口而输入的机械的控制用程序、数据等进行储存。可以将非易失性存储器14中存储的程序、数据在执行时以及利用时在RAM13中展开。

轴控制电路30控制机械具备的动作轴。轴控制电路30接受CPU11输出的轴的移动指令量，并将轴的移动指令输出给伺服放大器40。此时，轴控制电路30除了进行后述的反馈控制以外，还根据由CPU11基于Lugre模型等输出的修正转矩来进行非线性摩擦力的修正。或者，轴控制电路30也可以根据基于Lugre模型等计算出的修正转矩来进行非线性摩擦力的修正。与CPU11进行修正相比，在轴控制电路30之中进行修正通常是高速的。

伺服放大器40接受轴控制电路30输出的轴的移动指令来驱动伺服电动机50。

伺服电动机50由伺服放大器40进行驱动从而使机械具备的轴移动。伺服电动机50典型地内置位置速度检测器。或者有时不内置而在机械侧设置位置检测器。位置速度检测器输出位置速度反馈信号，并将该信号反馈给轴控制电路30，由此进行位置速度的反馈控制。

需要说明的是，在图1中轴控制电路30、伺服放大器40、伺服电动机50各表示了一个，但实际上准备了与成为控制对象的机械所具备的轴的数量相应的数量。例如，在对具备6轴的机械进行控制的情况下，与各个轴对应的轴控制电路30、伺服放大器40、伺服电动机50总共准备6组。

操作盘60是具备硬件按键等的数据输入装置。其中也有被称作示教操作盘的具备显示器、硬件按键等的手动数据输入装置。示教操作盘将经由接口18从CPU11接收到的信息显示在显示器中。操作盘60将从硬件按键等输入来的脉冲、指令、数据等经由接口18而传送给CPU11。

图2是第一实施方式中的控制装置1的概要的功能块图。图2所示的各功能块通过由图1所示的控制装置1具备的CPU11执行系统程序，对控制装置1的各部分的动作进行控制来实现。

本实施方式的控制装置1具备数据取得部70以及修正转矩推定部80。修正转矩推定部80具备最优化部81以及修正转矩计算部82。另外，在非易失性存储器14上设有用于存储数据取得部70所取得的数据的取得数据存储部71。

数据取得部70是从CPU11、伺服电动机50以及机械等取得各种数据的功能单元。数据取得部70例如取得位置指令、位置反馈、速度指令以及速度反馈，并将它们存储在取得数据存储部71中。

修正转矩推定部80是基于取得数据存储部71中存储的数据来推定摩擦模型(典型地为Lugre模型)中的最优系数(如果是Lugre模型，则为Fc、Fs、v0、σ0、σ1、σ2)的功能单元。在本实施方式中，最优化部81例如通过解决使位置指令与位置反馈的偏差最小化的最优化问题来推定摩擦模型的系数。典型地，通过穷尽地探索系数的组合的网格搜索、随机地试行系数的组合的随机搜索、基于概率分布和采集函数(Acquisition function)来探索最优的系数的组合的贝叶斯最优化等方法，能够推定位置指令与位置反馈的偏差成为最小的系数的组合。即，最优化部81通过重复进行在对系数的组合进行各种变更的同时使机械动作，并评价位置指令与位置反馈之间的偏差的循环，发现偏差成为最小的系数的组合。

修正转矩计算部82使用最优化部81所推定出的结果(摩擦模型的系数的最优组合)，计算并输出基于摩擦模型的修正转矩。控制装置1将修正转矩计算部82输出的修正转矩与电流指令相加。

根据本实施方式，最优化部81通过解决最优化问题来确定摩擦模型的系数，因此也能够容易地求出与各种机械、使用环境等对应的最优系数。

图3是第二实施方式及第三实施方式中的具备机器学习装置100的控制装置1的概要的硬件框图。本实施方式的控制装置1除了具备机器学习装置100的相关结构以外，与第一实施方式相同。在本实施方式的控制装置1具备的ROM12中预先写入了包括用于控制与机器学习装置100之间的交换的通信程序等的系统程序。

接口21是用于将控制装置1与机器学习装置100进行连接的接口。机器学习装置100具有处理器101、ROM102、RAM103、非易失性存储器104。

处理器101控制整个机器学习装置100。ROM102储存系统程序等。RAM103进行机器学习所涉及的各处理中的临时的存储。非易失性存储器104储存学习模型等。

机器学习装置100经由接口21来观测控制装置1可取得的各种信息(位置指令、速度指令、位置反馈等)。机器学习装置100通过机器学习来学习并推定用于对伺服电动机50进行精密控制的摩擦模型(典型地为Lugre模型)的系数，并将修正转矩经由接口21输出给控制装置1。

图4是第二实施方式的控制装置1和机器学习装置100的概要的功能块图。图4所示的控制装置1具备机器学习装置100进行学习时需要的结构(学习模式)。图4所示的各功能块通过由图3所示的控制装置1具备的CPU11以及机器学习装置100的处理器101执行各个系统程序，对控制装置1以及机器学习装置100的各部的动作进行控制来实现。

本实施方式的控制装置1具备数据取得部70以及在机器学习装置100构成的修正转矩推定部80。修正转矩推定部80具备学习部83。另外，在非易失性存储器14设有用于存储数据取得部70所取得的数据的取得数据存储部71，在机器学习装置100的非易失性存储器104设有用于存储通过学习部83的机器学习而构筑的学习模型的学习模型存储部84。

本实施方式中的数据取得部70的动作与第一实施方式相同。数据取得部70例如取得位置指令、位置反馈、速度指令以及速度反馈，并将它们存储在取得数据存储部71。另外，数据取得部70取得控制装置1当前在非线性摩擦的修正中使用的Lugre模型的系数的组(Fc、Fs、v0、σ0、σ1、σ2)，并将其存储在取得数据存储部71。

前处理部90基于数据取得部70所取得的数据来生成在机器学习装置100的机器学习中使用的学习数据。前处理部90生成将各数据变换(数值化，取样等)为在机器学习装置100中处理的统一形式的学习数据。前处理部90在机器学习装置100进行无监督学习的情况下，生成将该学习中的预定形式的状态数据S来作为学习数据，在机器学习装置100进行有监督学习的情况下，生成该学习中的预定形式的状态数据S以及标签数据L的组来作为学习数据，在机器学习装置100进行强化学习的情况下，生成该学习中的预定形式的状态数据S以及判定数据D的组来作为学习数据。

学习部83进行由前处理部90生成的学习数据来进行机器学习。学习部83通过无监督学习、有监督学习、强化学习等公知的机器学习的方法来生成学习模型，并将所生成的学习模型存储在学习模型存储部84。作为学习部83进行的无监督学习的方法，例如举出autoencoder法、k-means法等，作为有监督学习的方法，例如举出multilayer perceptron法、recurrent neural network法、Long Short-Term Memory法、convolutional neuralnetwork法等，作为强化学习的方法，例如举出Q学习等。

图5示出作为学习方法的一例执行强化学习的学习部83的内部功能结构。强化学习是如下方法：试错地反复进行观测学习对象所在的环境的当前状态(即输入)，并且在当前状态下执行预定的行为(即输出)，对该行为赋予某种回报这样的循环，学习回报的总和最大化的方案(在本实施方式中为Lugre模型的系数的设定)来作为最优解。

学习部83具有状态观测部831、判定数据取得部832、强化学习部833。图5所示的各功能块通过由图3所示的控制装置1具备的CPU11以及机器学习装置100的处理器101执行各自的系统程序对控制装置1以及机器学习装置100的各部的动作进行控制来实现。

状态观测部831观测表示环境的当前状态的状态变量S。状态变量S例如包括当前的Lugre模型的系数S1、当前的位置指令S2、当前的速度指令S3，之前周期的位置反馈S4。

状态观测部831取得控制装置1当前在非线性摩擦的修正中正在使用的Lugre模型的系数的组(Fc、Fs、v0、σ0、σ1、σ2)来作为Lugre模型的系数S1。

状态观测部831取得控制装置1当前输出的位置指令以及速度指令来作为当前的位置指令S2以及速度指令S3。

状态观测部831取得控制装置1在1个周期前取得的位置反馈(为了生成当前的位置指令以及速度指令而在反馈控制中使用的位置反馈)来作为位置反馈S4。

判定数据取得部832取得表示在状态变量S下进行了机械的控制时的结果的指标即判定数据D。判定数据D包含位置反馈D1。

判定数据取得部832取得作为基于Lugre模型的系数S1、位置指令S2以及速度指令S3对机械进行了控制的结果而得到的位置反馈，来作为位置反馈D1。

强化学习部833使用状态变量S和判定数据D，学习Lugre模型的系数S1与位置指令S2、速度指令S3以及位置反馈S4之间的相关关系。即，强化学习部833生成表示状态变量S的构成要素S1、S2、S3、S4的相关性的模型结构。强化学习部833具有回报计算部834、价值函数更新部835。

回报计算部834求出与基于状态变量S设定了Lugre模型的系数时的位置控制的结果(相当于在取得了状态变量S的下一学习周期中使用的判定数据D)相关联的回报R。

价值函数更新部835使用回报R来更新表示Lugre模型的系数的价值的函数Q。通过由价值函数更新部835重复进行函数Q的更新，强化学习部833学习Lugre模型的系数S1与位置指令S2、速度指令S3以及位置反馈S4之间的相关关系。

说明强化学习部833执行的强化学习的算法的一例。该例子的算法作为Q学习(Q-learning)而公知，是指以下的方法：将行为主体的状态s以及在该状态s下行为主体能够选择的行为a作为独立变量，学习用于表示在状态s下选择了行为a时的行为价值的函数Q(s，a)。在状态s下选择价值函数Q最高的行为a为最优解。在状态s与行为a之间的相关性为未知的状态下开始Q学习，重复进行在任意的状态s下选择各种行为a的试错，由此反复更新价值函数Q使其趋近最优解。在此，在作为在状态s下选择了行为a的结果使得环境(即状态s)发生变化时，得到与该变化对应的回报(即行为a的加权)r，引导学习使得选择得到更高回报r的行为a，由此能够在比较短时间内使价值函数Q趋近最优解。

一般可以如下述的数式2那样表示价值函数Q的更新公式。在数式2中，s_t和a_t分别是时刻t的状态和行为，由于行为a_t，状态变化为s_t+1。r_t+1是通过状态从s_t变化为s_t+1而得到的回报。maxQ的项表示在时刻t+1进行了成为最大价值Q(认为是在时刻t)的行为a时的Q。α和γ分别是学习系数和折扣率，在0<α≤1、0<γ≤1的范围内任意地设定。

[数式2]

在强化学习部833执行Q学习的情况下，状态观测部831观测到的状态变量S以及判定数据取得部832所取得的判定数据D相当于更新式的状态s，对于当前状态即位置指令S2、速度指令S3以及位置反馈S4应该如何决定Lugre模型的系数S1这样的行为相当于更新式的行为a，回报计算部834求出的回报R相当于更新式的回报r。由此，价值函数更新部835通过使用了回报R的Q学习来重复更新函数Q，该函数Q表示针对当前状态的Lugre模型的系数的价值。

回报计算部834例如进行基于所决定的Lugre模型的系数S1的机械控制，在判定为位置控制的结果为“恰当”的情况下，能够使回报R为正的值。另一方面，在判定为位置控制的结果为“不恰当”的情况下，能够使回报R为负的值。正负的回报R的绝对值可以相互相同也可以相互不同。

位置控制的结果为“恰当”的情况是指，例如位置反馈D1与位置指令S2之间的差在预定的阈值以内的情况等。位置控制的结果为“不恰当”的情况是指，例如位置反馈D1与位置指令S2之间的差超出预定的阈值的情况等。即，如果对于位置指令S2在预定的基准以上正确地实现了位置控制则为“恰当”，否则为“不恰当”。

关于位置控制的结果，不仅仅设为“恰当”以及“不恰当”这两种，而能够设定为多个阶段。例如，回报计算部834能够以位置反馈D1与位置指令S2之间的差越小回报越大的方式设定阶段性的回报。

价值函数更新部835能够持有将状态变量S、判定数据D以及回报R与通过函数Q表示的行为价值(例如数值)关联起来进行整理而得到的行为价值表。在该情况下，价值函数更新部835更新函数Q这样的行为与价值函数更新部835更新行为价值表这样的行为等同。在Q学习开始时，由于Lugre模型的系数S1与位置指令S2、速度指令S3以及位置反馈S4之间的相关关系未知，因此在行为价值表中，通过与任意决定的行为价值的值(函数Q)相关联的方式准备了各种状态变量S、判定数据D以及回报R。回报计算部834若知晓判定数据D则能够立即计算出与之对应的回报R，并将计算出的值R写入行为价值表。

当使用与位置控制的结果相对应的回报R来推进Q学习时，向选择得到更高的回报R的行为的方向引导学习，根据作为在当前状态下执行所选择的行为的结果而发生变化的环境的状态(即，状态变量S以及判定数据D)，来改写与当前状态下进行的行为相关的行为价值的值(函数Q)从而更新行为价值表。通过反复进行该更新，将行为价值表中显示的行为价值的值(函数Q)改写为越是恰当的行为成为越大的值。如此，未知环境下的当前状态即位置指令S2、速度指令S3以及位置反馈S4与相对于该当前状态的行为即设定的Lugre模型的系数S1之间的相关性逐渐变得清楚。换句话说，通过行为价值表的更新，使得Lugre模型的系数S1与位置指令S2、速度指令S3以及位置反馈S4之间的相关关系逐渐接近最优解。

参照图6进一步说明强化学习部833执行的Q学习的流程(换句话说，机器学习方法的一方式)。

步骤SA01：价值函数更新部835一边参照该时间点的行为价值表，一边任意地选择Lugre模型的系数S1来作为在状态观测部831观测到的状态变量S表示的当前状态下进行的行为。

步骤SA02：价值函数更新部835取入状态观测部831观测到的当前状态的状态变量S。

步骤SA03：价值函数更新部835取入判定数据取得部832取得的当前状态的判定数据D。

步骤SA04：价值函数更新部835基于判定数据D来判断Lugre模型的系数S1是否恰当。在判断为恰当的情况下，移至步骤SA05。在判断为不恰当的情况下，移至步骤SA07。

步骤SA05：价值函数更新部835将回报计算部834求出的正的回报R应用于函数Q的更新式。

步骤SA06：价值函数更新部835使用当前状态下的状态变量S以及判定数据D、回报R、行为价值的值(更新后的函数Q)来更新行为价值表。

步骤SA07：价值函数更新部835将回报计算部834求出的负的回报R应用于函数Q的更新式。

强化学习部833通过重复步骤SA01至SA07来重复更新行为价值表，从而推进学习。需要说明的是，对于判定数据D中包含的各个数据执行从步骤SA04到步骤SA07的求出回报R的处理以及价值函数的更新处理。

在进行强化学习时，例如能够使用神经网络来取代Q学习，。图7A示意性地示出神经元的模型。图7B示意性地示出将图7A所示的神经元进行组合而构成的三层的神经网络的模型。神经网络例如能够由模仿神经元模型的运算装置、存储装置等构成。

图7A所示的神经元输出与多个输入x(在这里作为一个例子为输入x₁～x₃)相对的结果y。对各输入x₁～x₃乘以与该输入x对应的权重w(w₁～w₃)。由此，神经元输出由下式3表现的输出y。另外，在数式3中，输入x、输出y以及权重w全部为向量。另外，θ为偏置，f_k为激活函数。

[数式3]

图7B所示的三层的神经网络从左侧输入多个输入x(在这里作为一个例子为输入x1～输入x3)，从右侧输出结果y(在这里作为一个例子为结果y1～结果y3)。在图示的例子中，对输入x1、x2、x3分别乘以对应的权重(全体由w1表示)，向三个神经元N11、N12、N13都输入各个输入x1、x2、x3。

在图7B中，神经元N11～N13的各个输出全体由z1表示。能够将z1看做是提取了输入向量的特征量而得到的特征向量。在图示的例子中，对特征向量z1分别乘以对应的权重(全体由w2表示)，将各个特征向量z1均输入给两个神经元N21、N22。特征向量z1表示权重w1与权重w2之间的特征。

在图7B中，神经元N21～N22的各个输出全体由z2表示。能够将z2看做是提取了特征向量z1的特征量而得到的特征向量。在图示的例子中，对特征向量z2分别乘以对应的权重(全体由w3表示)，将各个特征向量z2均输入给三个神经元N31、N32、N33。特征向量z2表示权重w2与权重w3之间的特征。最后，神经元N31～N33分别输出结果y1～y3。

另外，也可以采用使用了三层以上的神经网络的所谓的深度学习的方法。

通过重复上述那样的学习循环，强化学习部833能够自动地识别暗示Lugre模型的系数S1与位置指令S2、速度指令S3以及位置反馈S4之间的相关关系的特征。在学习算法开始时，Lugre模型的系数S1与位置指令S2、速度指令S3以及位置反馈S4之间的相关关系实质上未知，强化学习部833随着学习的推进而逐渐识别特征来解释相关性。当把Lugre模型的系数S1与位置指令S2、速度指令S3以及位置反馈S4之间的相关关系解释到以某种程度能够信赖的水准时，能够将强化学习部833反复输出的学习结果用于行为的选择(决策)，该行为的选择是指针对当前状态即位置指令S2、速度指令S3以及位置反馈S4应该设定怎样的Lugre模型的系数S1。如此，强化学习部833生成能够输出与当前状态对应的行为的最优解的学习模型。

图8是第三实施方式的控制装置1与机器学习装置100的概要的功能块图。本实施方式的控制装置1具备机器学习装置100进行推定时所需要的结构(推定模式)。图8所示的各功能块通过由图3所示的控制装置1具备的CPU11以及机器学习装置100的处理器101执行各个系统程序对控制装置1以及机器学习装置100的各部的动作进行控制来实现。

与第二实施方式相同地，本实施方式的控制装置1具备数据取得部70以及在机器学习装置100构成的修正转矩推定部80。修正转矩推定部80具备推定部85以及修正转矩计算部82。另外，在非易失性存储器14设有用于存储数据取得部70所取得的数据的取得数据存储部71，在机器学习装置100的非易失性存储器104设有用于存储通过学习部83的机器学习而构筑的学习模型的学习模型存储部84。

本实施方式的数据取得部70以及前处理部90的动作与第二实施方式相同。通过前处理部90将数据取得部70取得的数据变换(数值化，取样等)为在机器学习装置100中处理的统一形式，从而生成状态数据S。前处理部90生成的状态数据S在机器学习装置100进行的推定中使用。

推定部85基于前处理部90生成的状态数据S，使用在学习模型存储部84中存储的学习模型，进行Lugre模型的系数S1的推定。本实施方式的推定部85向学习部83生成的(决定了参数的)学习模型输入从前处理部90输入的状态数据S，由此推定并输出Lugre模型的系数S1。

修正转矩计算部82使用推定部85推定出的结果(摩擦模型的系数的组合S1)，计算并输出基于摩擦模型的修正转矩。控制装置1将修正转矩计算部82输出的修正转矩与电流指令相加。

根据实施方式2、3，机器学习装置100生成用于表示Lugre模型的系数S1与位置指令S2、速度指令S3以及位置反馈S4之间的相关关系的学习模型，通过利用该学习模型来推定摩擦模型的系数，由此还能够容易地求出与各种机械、使用环境等相对应的最优的系数。

以上对本发明的实施方式进行了说明，但本发明并不局限于上述实施方式的例子，通过施加适当的变更能够以各种方式来实施。

例如，在上述的实施方式中，将控制装置1和机器学习装置100说明为具有的CPU(处理器)的不同装置，但是机器学习装置100也可以通过控制装置1具备CPU11和存储在ROM12中的系统程序来实现。

另外，作为机器学习装置100的变形例，学习部83能够使用针对同种的多个机械分别得到的状态变量S以及判定数据D，学习在这些机械中共用的恰当的Lugre模型的系数。根据该结构，使得在一定时间内得到的包括状态变量S和判定数据D在内的数据集合的量增加，能够输入更多样的数据集合，因此能够提高学习的速度、可靠性。另外，通过将这样得到的学习模型作为初期值使用来对每个机械进行追加学习，还能够将Lugre模型在各个机械中进一步最优化。

图9示出向控制装置1附加了多个机械的系统170。系统170具有多个机械160以及机械160’。所有的机械160和机械160’通过有线或无线的网络172相互连接。

机械160以及机械160’具有同种的机构。另一方面，机械160具备控制装置1，而机械160’不具备控制装置1。

在具备控制装置1的机械160中，推定部85能够使用学习部83的学习结果即学习模型来推定与位置指令S2、速度指令S3以及位置反馈S4对应的Lugre模型的系数S1。另外，可以构成为至少一个机械160的控制装置1利用针对其他的多个机械160以及机械160’分别得到的状态变量S以及判定数据D，学习在所有的机械160以及机械160’中共用的位置控制，并将该学习结果在全部的机械160以及机械160’中共享。根据系统170，将更多样的数据集合(包括状态变量S以及判定数据D)作为输入，能够提高位置控制的学习的速度、可靠性。

图10示出具备多个机械160’的系统170’。系统170’具有：具有相同的机械结构的多个机械160’；与控制装置1独立的机器学习装置120(或者控制装置1中包含的机器学习装置100)。多个机械160’和机器学习装置120(或者机器学习装置100)通过有线或无线的网络172相互连接。

机器学习装置120(或者机器学习装置100)基于针对多个机械160’分别得到的状态变量S以及判定数据D，来学习在所有的机械160’中共用的Lugre模型的系数S1。机器学习装置120(或者机器学习装置100)能够使用该学习结果，推定与位置指令S2、速度指令S3以及位置反馈S4对应的Lugre模型的系数S1。

根据该结构，与多个机械160’各自存在的场所、时期无关，在需要时能够将所需数量的机械160’与机器学习装置120(或者机器学习装置100)连接。

在上述的实施方式中，控制装置1、机器学习装置100(或者机器学习装置120)被假定为设置在本地的一个信息处理装置，但本发明并不局限于此，例如控制装置1、机器学习装置100(或者机器学习装置120)也可以实际安装在被称作云计算、雾计算、边缘计算等的信息处理环境中。

另外，在上述实施方式中示出了在作为摩擦模型而具有代表性的Lugre模型中决定系数的方法，但本发明并不局限于此，也可以用于决定Seven parameter model(七参数模型)、State variable model(状态变量模型)、Karnopp model(Karnopp模型)、LuGremodel(LuGre模型)、Modified Dahl model(Modified Dahl模型)、M2model(M2模型)等各种摩擦模型的系数。

另外，在上述的实施方式中，作为机械主要例示了加工机械，但本发明并不局限于此，能够用于具有摩擦会成为问题的驱动机构，典型地为具有定位机构的各种机械(例如医疗机器人、灾害机器人、建设机器人等)。

另外，上述的实施方式中，基于图13所示的控制系统来求出摩擦模型的系数，但本发明并不局限于此，能够用于对其加以变形后的各种控制系统。例如，如图14所示，可以采用代替速度指令而将位置指令的微分即s＝相当于速度指令输入给摩擦模型的控制系统。在该情况下，机器学习装置100的状态观测部831观测相当于速度指令的s来代替速度指令。根据该结构，由于能够仅利用位置指令来计算修正转矩，因此具有仅在控制装置1侧就能够完成修正转矩的计算这样的优点。

或者，如图15所示，也可以采用代替位置指令以及速度指令而将位置反馈以及速度反馈输入给摩擦模型的控制系统。在该情况下，机器学习装置100的状态观测部831观测位置反馈而非位置指令，观测速度反馈而非速度指令。该结构在轴控制电路30侧容易实现。能够进行高速的处理，由于使用反馈因此容易推定实际摩擦力。

以上对本发明的实施方式进行了说明，但本发明并不局限于上述的实施方式的例子，通过施加适当的变更能够以其他的方式来实施。

Claims

1.一种控制装置，其对机械的1个以上的轴进行考虑了摩擦的位置控制，其特征在于，具备：

数据取得部，其至少取得位置指令及位置反馈；以及

修正转矩推定部，其基于所述位置指令与所述位置反馈的差即位置偏差来推定进行所述位置控制时的摩擦模型的系数。

2.根据权利要求1所述的控制装置，其特征在于，

所述修正转矩推定部具有最优化部，该最优化部通过解决使所述位置偏差最小化的最优化问题来推定摩擦模型的系数。

3.根据权利要求1所述的控制装置，其特征在于，

所述修正转矩推定部具有学习部，该学习部进行使用了状态变量的机器学习从而生成学习模型，

所述状态变量包含所述摩擦模型的系数、位置指令及位置反馈、以及速度指令或速度反馈。

4.根据权利要求3所述的控制装置，其特征在于，

所述学习部基于表示所述位置控制的结果的判定数据来进行强化学习。

5.根据权利要求1所述的控制装置，其特征在于，

所述修正转矩推定部具有：

学习模型存储部，其存储使用所述摩擦模型的系数、位置指令及位置反馈、以及速度指令或速度反馈进行机器学习而得到的学习模型；以及

推定部，其基于位置指令及位置反馈、以及速度指令或速度反馈，使用所述学习模型来推定所述摩擦模型的系数。

6.根据权利要求1所述的控制装置，其特征在于，

所述数据取得部从多个所述机械取得数据。

7.根据权利要求1所述的控制装置，其特征在于，

所述摩擦模型为Lugre模型、七参数模型、状态变量模型、Karnopp模型、LuGre模型、Modified Dahl模型、M2模型中的某一个。

8.一种控制方法，其对机械的1个以上的轴进行考虑了摩擦的位置控制，其特征在于，

所述控制方法包含：

数据取得步骤，至少取得位置指令及位置反馈；以及

修正转矩推定步骤，基于所述位置指令与所述位置反馈的差即位置偏差来推定进行所述位置控制时的摩擦模型的系数。