CN108227482B

CN108227482B - 控制系统以及机器学习装置

Info

Publication number: CN108227482B
Application number: CN201711337999.9A
Authority: CN
Inventors: 山口刚太
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2016-12-14
Filing date: 2017-12-14
Publication date: 2020-05-29
Anticipated expiration: 2037-12-14
Also published as: DE102017011544A1; JP6457472B2; US10564611B2; JP2018097680A; CN108227482A; US20180164756A1

Abstract

本发明提供一种控制系统以及机器学习装置，其根据机械的动作条件、动作环境、优先因素，通过机器学习使设备内机械的伺服增益最佳化。控制系统具备：状态观测部，其观测机械的与机械相关的信息来作为状态数据；判定数据取得部，其取得与所述机械进行的加工相关的信息来作为判定数据；回报计算部，其根据判定数据和回报条件来计算回报；学习部，其对机械的伺服增益的调整进行机器学习；决策部，其根据机械的伺服增益的调整的机器学习结果和状态数据，决定机械(3)的伺服增益的调整行为；增益变更部，其根据决定的伺服增益的调整行为，变更机械(3)的伺服增益。

Description

控制系统以及机器学习装置

技术领域

本发明涉及一种控制系统以及机器学习装置，尤其涉及通过机器学习使设备内机械控制中的伺服增益最佳化的控制装置以及机器学习装置。

背景技术

控制装置的伺服增益的设定对成为控制对象的机械的动作产生大的影响，且对加工产品的品质、生产率产生直接的影响。关于伺服增益的设定，针对每个机械以工件、工具、精度、周期时间、金属模具的重量、树脂的粘度等加工条件为基础，使用调整用工具，根据需要每次进行设定并调整的情况较多，最佳化需要时间。此外，还存在如下情况：根据运转状态，每次在运转过程中想要切换为最佳的增益。

控制装置的伺服增益存在电流环增益，速度环增益，位置环增益，压力控制比例/积分增益等各种种类。以往，需要根据机械的刚性、负载惯量、工具的种类、动作方式等各种条件，使用调整用工具等来分别设定最佳的值。此外，需要根据加工精度优先、速度优先等优先的因素，重新调整最佳的增益。

作为与伺服增益的调整有关的现有技术，例如，在日本特开平3-259303号公报中公开了使用神经网络来进行机械动作控制中的调整的系统。此外，在日本特开2006-302282号公报中公开了取得各个机器人的性能数据，根据用户的性能目标，包含控制增益在内使控制程序最佳化的技术。

在调整伺服增益时，例如，难以根据机械的刚性、对象工件、工具、夹具、金属模型的重量、射出成形时的树脂的粘度的影响等这样的成为控制对象的机械的动作条件、动作环境等，在运转前推定最佳增益的情况较多。此外，使形状误差、生产率、消耗电力、向机械的负荷等中的哪个因素优先来设定增益每次都不同，因此难以在运转前推定最佳增益的情况较多。并且，日本特开平3-259303号公报、日本特开2006-302282号公报中所公开的技术无法解决这样的课题。

发明内容

因此，本发明的目的在于提供一种控制装置以及机器学习装置，其根据机械的动作条件、动作环境、优先因素，通过机器学习使设备内机械的伺服增益最佳化。

本发明向多个控制装置的上位的控制装置或现场计算机导入机器学习器，根据从各机械的控制装置收集到的各轴的信息(位置偏差、周期时间、电动机负荷、消耗电力、速度变动率等)、与各机械的运转条件相关的信息(电动机的特性、机械的刚性、工件的种类、树脂的粘度、使用的工具、夹具、金属模具的重量、形状、树脂的种类、粘度等)，进行使优先因素最佳化的机器学习。在本发明的控制系统中，根据各机械的运转条件和价值函数的最新数据，在控制装置中设定最佳增益的推定初始值，并根据从控制装置得到的各轴的信息计算回报，将其在机器学习器的学习中使用。在本发明的控制系统中，可以至少根据优先因素来存储在多个机器学习中使用的价值函数，可以根据状况从数据库中选择并使用最佳的价值函数。

并且，本发明的控制系统具备对工件进行加工的至少一个机械、以及对在该机械进行的加工中使用的伺服增益进行调整的上位装置，其具备机器学习装置，该机器学习装置对所述机械的伺服增益的调整进行机器学习，所述机器学习装置具备：状态观测部，其观测所述机械的与机械相关的信息来作为状态数据；判定数据取得部，其取得与所述机械进行的加工相关的信息来作为判定数据；回报计算部，其根据所述判定数据和预先设定的回报条件来计算回报；学习部，其对所述机械的伺服增益的调整进行机器学习；决策部，其根据所述学习部对于所述机械的伺服增益的调整的机器学习结果和所述状态数据，决定所述机械的伺服增益的调整行为；以及增益变更部，其根据由所述决策部决定的伺服增益的调整行为，变更所述机械的伺服增益，所述学习部根据所述状态数据、所述调整行为、在所述调整行为后计算出的回报，对所述机械的伺服增益的调整进行机器学习。

上述的控制系统还具备价值函数切换判定部，该价值函数切换判定部根据对所述机械预先设定的优先因素，来切换在所述机器学习以及所述调整行为的决定中使用的价值函数。

此外，上述的控制系统中，关于所述回报条件，根据对每个所述优先因素设定的回报条件来计算正或负的回报。

此外，上述的控制系统与至少一个其他的数值控制装置连接，在与其他的所述上位装置之间相互交换或共享机器学习的结果。

本发明的机器学习装置针对在加工工件的至少一个机械进行的加工中使用的伺服增益的调整进行机器学习，其具备：状态观测部，其观测所述机械的与机械相关的信息来作为状态数据；判定数据取得部，其取得与所述机械进行的加工相关的信息来作为判定数据；回报计算部，其根据所述判定数据和预先设定的回报条件来计算回报；学习部，其对所述机械的伺服增益的调整进行机器学习；决策部，其根据所述学习部对于所述机械的伺服增益的调整的机器学习结果和所述状态数据，决定所述机械的伺服增益的调整行为；以及增益变更部，其根据由所述决策部决定的伺服增益的调整行为，变更所述机械的伺服增益，所述学习部根据所述状态数据、所述调整行为、在所述调整行为后计算出的回报，对所述机械的伺服增益的调整进行机器学习。

上述机器学习装置还具备价值函数切换判定部，该价值函数切换判定部根据对所述机械预先设定的优先因素，来切换在所述机器学习以及所述调整行为的决定中使用的价值函数。

根据本发明，能够针对控制对象的各机械推定使优先因素提高的增益的组合，通过将推定结果应用于控制装置的机械控制中，能够实时且自动地提高各机械中的优先因素。此外，作业者不需要对每个机械调整增益，能够在边缘环境下统一地自动地进行全部机械的增益的最佳化，能够削减增益调整所需要的劳力和时间。并且，能够通过各个机械的运转条件和最佳增益的推定结果来更新价值函数，在其他的机器的学习中使用共有的价值函数，结果，能够自动且高效地推定、设定最佳增益。

附图说明

根据参照附图对以下实施例进行说明，本发明的上述以及其他的目的和特征变得更加明确。在这些附图中：

图1是说明强化学习算法的基本概念的图。

图2是表示神经元模型的示意图。

图3是表示具有3层权重的神经网络的示意图。

图4是与本发明实施方式的控制系统的机器学习相关的图。

图5是本发明实施方式的控制系统的概要性的功能框图。

图6是表示本发明实施方式的机器学习流程的流程图。

具体实施方式

以下，将本发明实施方式与附图一起进行说明。

在本发明中，向用于控制各机械的至少一个以上的控制装置的上位的上位装置(控制装置、现场计算机等)导入成为人工智能的机器学习装置，来机器学习与各轴的信息、机械的运转条件、优先因素相对的、在各控制装置进行的机械控制中使用的伺服增益的调整，由此能够自动地求出使优先因素提高的增益的组合。

以下，简单地说明在本发明中导入的机器学习。

＜1.机器学习＞

在此，简单地对机器学习进行说明。通过分析，从向进行机器学习的装置(以下称为机器学习装置)输入的数据的集合中提取存在于其中的有用的规则、知识表达、判断基准等，输出其判断结果，并且进行知识的学习，由此实现机器学习。机器学习方法有多种，大致分为“监督学习”、“无监督学习”、“强化学习”。并且，具有在实现这些方法的基础上对特征量自身的提取进行学习的被称为“深度学习”的方法。

“监督学习”是指通过向机器学习装置大量赋予某个输入和结果(标签)的数据组，来学习这些数据集中存在的特征，能够归纳性地获得根据输入推定结果的模型，即其关系性。该监督学习能够使用后述的神经网络等算法来实现。

“无监督学习”是如下的方法：通过向学习装置仅大量赋予输入数据，来学习输入数据进行怎样的分布，即使不赋予对应的监督输出数据，也会学习对输入数据进行压缩、分类、整形等处理的装置。能够将这些数据集中具有的特征聚类为彼此相似。使用该结果，通过设置某种基准来进行使其最优的输出的分配，能够实现输出的预测。此外，作为“无监督学习”和“监督学习”的中间的问题设定，还存在被称为“半监督学习”的机器学习方法，这相当于仅存在一部分的输入和输出的数据组，除此以外仅为输入的数据的情况。在本实施方式中，在无监督学习中使用即使未使加工机实际动作也能取得的数据，能够有效地进行学习。

“强化学习”是如下方法：不仅学习判定、分类，还学习行动，由此考虑行为对于环境赋予的相互作用来学习恰当的行为，即进行用于使将来获得的回报最大的学习。在强化学习中，机器学习装置能够从完全不知道行为引起的结果的状态、或者从只是不完全知道的状态开始学习。此外，还能够如同模拟人的动作那样将事先进行了学习(上述的监督学习、逆向强化学习这样的方法)的状态作为初始状态，从良好的开始地点开始学习。

另外，在对加工机应用机器学习的情况下，需要考虑加工机实际进行动作后才能取得其结果来作为数据的情况，即需要一边进行尝试一边搜索最佳的行为。在本发明中，作为机器学习装置的主要的学习算法，采用通过赋予回报使机器学习装置自动学习用于到达目标的行为的强化学习的算法。

图1是说明强化学习算法的基本概念的图。在强化学习中，通过成为执行学习的主体的智能体(机器学习装置)与成为控制对象的环境(控制对象系统)之间的互动来推进智能体的学习和行为。更具体地，在智能体与环境之间进行如下的互动：(1)智能体观测某个时间点的环境的状态S_t；(2)根据观测结果和过去的学习，选择自己采取的行为a_t，并执行行为a_t；(3)基于某些规则以及行为a_t的执行，环境的状态S_t变化为下一个状态S_t+1；(4)基于作为行为a_t的结果的状态变化，智能体取得回报r_t+1；(5)智能体根据状态s_t、行为a_t、回报r_t+1以及过去的学习结果来推进学习。

在强化学习的初始阶段，智能体完全不知道在(2)的行为选择中用于选择针对环境的状态s_t的最佳的行为a_t的价值判断的基准。因此，智能体以某个状态s_t为基础选择各种行为a_t，根据针对此时的行为a_t赋予的回报r_t+1，学习选择更好的行为，即学习正确的价值判断的基准。

在上述的(5)的学习中，智能体获得观测到的状态S_t，行为a_t，回报r_t+1的映射，来作为用于判断将来可获得的回报量的基准信息。例如，当假设在各时刻取得的状态的个数为m，取得的行为的个数为n时，通过反复进行行为而得到m×n的二维排列，该m×n的二维排列存储与状态s_t和行为a_t的组相对的回报r_t+1。

并且，使用表示根据上述取得的映射而选择出的状态、行为有多好的函数即价值函数(评价函数)，在反复进行行为的过程中更新价值函数(评价函数)，由此来学习与状态相对的最佳的行为。

状态价值函数是表示某个状态s_t为有多好的状态的价值函数。状态价值函数表现为将状态作为自变量的函数，在反复进行行为的学习中，根据针对某个状态下的行为获得的回报、由于该行为而转移的未来的状态的价值等来变更状态价值函数。根据强化学习的算法定义了状态价值函数的更新式，例如，在作为强化学习算法之一的TD学习中，通过以下的式1来更新状态价值函数。另外，在式1中，α为学习系数，γ为折扣率，在0＜α≤1、0＜γ≤1的范围内进行定义。

【式1】

V(s_t)←V(s_t)+α[r_t+1+γV(s_t+1)-V(s_t)]

此外，行为价值函数是表示在某个状态s_t下行为a_t是有多好的行为的价值函数。行为价值函数表现为将状态和行为作为自变量的函数，在反复进行行为的学习中，根据针对某个状态下的行为获得的回报、通过该行为而转移的未来的状态的行为的价值等来变更行为价值函数。根据强化学习的算法定义了行为价值函数的更新式，例如，在作为强化学习算法之一的Q学习中，通过以下的式2来更新行为价值函数。另外，在式2中，α为学习系数，γ为折扣率，在0＜α≤1、0＜γ≤1的范围内进行定义。

【式2】

式2表示了根据作为行为a_t的结果而返回的回报r_t+1，对状态s_t下的行为a_t的评价值Q(s_t，a_t)进行更新的方法。表示了如果基于回报r_t+1+行为a_t的下一个状态下的最佳行为max(a)的评价值Q(s_t+1，max(a))大于状态s_t下的行为a_t的评价值Q(S_t，a_t)，则使Q(s_t，a_t)变大，若相反，则使Q(s_t，a_t)变小。也就是说，使某个状态下的某个行为的价值接近作为结果而即时返回的回报和基于该行为的下一个状态的最佳的行为的价值。

在Q学习中，通过反复进行这样的更新，以最终Q(_St，a_t)成为期待值E[Σγ^t r_t]为目标(对于按照最佳的行为状态发生了变化的时候取得期待值。当然，因为不知道最佳值，所以要一边搜索一边学习)。

并且，在上述(2)的行为选择中，使用根据过去的学习而生成的价值函数(评价函数)，选择在当前的状态s_t下到将来的回报(r_t+1+r_t+2+…)成为最大的行为a_t(在使用了状态价值函数的情况下，用于向价值最高的状态迁移的行为，在使用了行为价值函数的情况下，在该状态下价值最高的行为)。另外，在智能体的学习中以学习进展为目标，有时在(2)的行为的选择中以一定的概率选择随机的行为(ε贪婪算法)。

另外，作为针对作为学习结果的价值函数(评价函数)进行存储的方法，具有对于全部的状态行为对(S，a)，将其值保存为表(行为价值表)的方法、准备对上述价值函数进行近似的函数的方法。在后者的方法中，上述的更新式可通过使用随机梯度下降法等方法调整近似函数的参数来实现。作为近似函数，能够使用神经网络等监督学习器。

神经网络例如由图2所示的用于实现对神经元模型进行模拟的神经网络的运算装置以及存储器等构成。图2是表示神经元模型的示意图。

如图2所示，神经元输出针对多个输入x(在此，作为一个例子，是输入x₁～输入x₃)的输出y。各输入x₁～x₃乘以与该输入x相对应的权重w(w₁～w₃)。由此，神经元输出通过下述的式3表现的输出y。另外，在式3中，输入x、输出y和权重w全部是向量。此外，θ是偏置，f_k是激活函数。

【式3】

接着，参照图3说明具有将上述的神经元组合后的三层权重的神经网络。图3是表示具有D1～D3这三层权重的神经网络的示意图。如图3所示，从神经网络的左侧输入多个输入x(在此，作为一个例子，输入x₁～输入x₃)，从右侧输出结果y(在此，作为一个例子，多个结果y₁～结果y₃)。

具体地说，输入x₁～x₃乘以对应的权重后输入至3个神经元N11～N13中的各个神经元。把与这些输入相乘的权重统一标记为w1。神经元N11～N13分别输出z11～z13。

将这些z11～z13统一标记为特征向量z1，能够视为提取了输入向量的特征量的向量。该特征向量z1是权重w1与权重w2之间的特征向量。

z11～z13乘以对应的权重后输入至2个神经元N21、N22中的各个神经元。将与这些特征向量相乘的权重统一标记为w2。神经元N21、N22分别输出z21、z22。将这些统一标记为特征向量z2。该特征向量z2是权重w2与权重w3之间的特征向量。

特征向量z21、z22乘以对应的权重后输入至3个神经元N31～N33中的各个神经元。将与这些特征向量相乘的权重统一标记为w3。

最后，神经元N31～N33分别输出结果y1～结果y3。

神经网络的动作中存在学习模式和预测模式，在学习模式中，使用学习数据集来对权重w进行学习，使用其参数在预测模式下进行加工机的行为判断(出于方便，写成预测，但能够进行检测、分类、推论等各种任务)。

能够在预测模式下即时学习实际通过控制装置对机械进行控制而得的数据，将学习的数据反映到下一个行为中(在线学习)，还能够使用预先收集到的数据群来进行统一的学习，以后一直通过该参数进行检测模式(批量学习)。还能够进行中间性的学习模式，即在每次积存了某种程度的数据时插入学习模式。

能够通过误差逆传播法(反向传播)来学习权重w1～w3。误差信息从右侧进入，向左侧流动。误差逆传播法是如下方法：针对各神经元，调整(学习)各个权重，以便缩小在输入了输入x时的输出y与真正的输出y(监督)之间的差值。

神经网络也可以进一步将层增加到3层以上(称为深度学习)。能够阶段性地进行输入的特征提取，仅从监督数据自动地获得使结果回归的运算装置。

通过将这样的神经网络作为近似函数来使用，能够在反复进行上述的强化学习过程中的(1)～(5)的同时，将上述的价值函数(评价函数)存储为神经网络来推进学习。

一般，机器学习装置在某个环境下学习结束后，即使被放置在新的环境下也能够通过进行追加的学习来推进学习从而适应于该环境。因此，如本发明那样，通过用于在各控制装置针对机械的控制中使用的伺服增益的调整，即使在应用于新的机械控制的前提条件的情况下，也能够基于过去的对于伺服增益的的调整的学习，进行新的加工前提条件下的追加学习，由此可在短时间内进行伺服增益的调整的学习。

此外，在强化学习中，设为将多个智能体经由网络进行连接的系统，在智能体之间共享状态S、行为a、回报r等信息，并将该信息在各个学习中使用，由此进行各个智能体还考虑其他智能体的环境来进行学习的分散强化学习，从而能够进行高效的学习。在本发明中，在将组入到多个环境(车床的数值控制装置)中的多个智能体(机器学习装置)经由网络等连接的状态下进行分散机器学习，由此能够高效地进行车床的数值控制装置的车削周期指令的加工路径和加工条件的调整的学习。

另外，作为强化学习的算法，已知Q学习、SARSA法、TD学习、AC法等各种方法，作为应用于本发明的方法，可以采用任一种强化学习算法。上述的各个强化学习算法是公知的算法，因此在本说明书中省略针对各算法的详细说明。

以下，根据具体的实施方式，对导入了机器学习装置的本发明的控制系统进行说明。

＜2.实施方式＞

图4表示在导入了本发明的一实施方式的机器学习装置的控制系统中的各控制装置的机械控制中所使用的伺服增益的调整中，与调整的机器学习相关的图。另外，图4中仅表示了为了说明本实施方式的控制系统中的机器学习所需要的结构。

在本实施方式中，作为机器学习装置20用于确定环境(在＜1.机器学习＞中说明的状态s_t)的信息，将从机械3取得的各轴的信息、机械的运转条件作为状态信息输入至机器学习装置20。

在本实施方式中，作为机器学习装置20对环境输出的行为(在＜1.机器学习＞中说明的行为a_t)，输出在各控制装置的机械控制中所使用的伺服增益的调整行为。

在本实施方式的控制系统1中，关于上述的状态信息，根据从机械3取得的各轴的信息、机械的运转条件来定义状态。并且，能够根据机器学习装置20输出的在机械控制中所使用的伺服增益的调整量来定义上述的调整行为。

此外，在本实施方式中，作为向机器学习装置20赋予的回报(在＜1.机器学习＞中说明的回报r_t)，采用根据优先因素和机械3的运转结果而决定的条件(正/负回报)。另外，关于根据何种数据来决定回报，可以由作业者适当设定。

并且，在本实施方式中，机器学习装置20根据上述的状态信息(输入数据)、调整行为(输出数据)、回报来进行机器学习。在机器学习中，在某时刻t，根据输入数据的组合来定义状态s_t，对定义的状态s_t进行的伺服增益的调整为行为a_t，并且，作为根据行为a_t进行了伺服增益的调整的结果，新得到机械的运转结果的数据，基于该新得到的机械的运转结果的数据进行评价计算而得到的值为回报r_t+1，如在＜1.机器学习＞中说明的那样，将这些应用于与机器学习的算法对应的价值函数(评价函数)的更新式来推进学习。

以下，根据控制系统的功能框图来进行说明。

图5是本实施方式的控制系统的功能框图。将图5所示的结构与图1所示的强化学习的要素进行对比，机器学习装置20相当于智能体，除机器学习装置20外的机械3等的结构相当于环境。

本实施方式的控制系统1由具备机器学习装置20的上位装置2和至少一个机械3构成。此外，上位装置2是相对于控制机械3的控制装置位于上位的装置，是控制装置、现场计算机，主机等。

作为本实施方式的工厂内设备的机械3具备：机械信息输出部30，其取得机械3的温度、刚性、加工对象的工件的种类、加工中使用的刀具、夹具、金属模具的种类、加工中使用的树脂的种类、粘度的种类等与机械3有关的信息，并将该信息输出给上位装置2；加工信息输出部31，其取得轴的位置偏差率、变动率、与加工有关的周期时间、最大电动机负荷值、消耗电力、电动机的速度和变动率等与加工有关的信息，并将该信息输出至上位装置2；伺服增益设定部32，其设定电流环增益、速度环增益、位置环增益、压力控制比例/积分增益等伺服增益。

机械信息输出部30从机械3的未图示的设定用存储器等在机械3的各部安装的未图示的传感器等取得与机械3有关的信息，并根据来自上位装置2的请求输出与机械3有关的信息。

加工信息输出部31在进行加工时，对在机械3的各部安装的未图示的传感器、伺服电动机的输出等进行监视，例如在1个周期的加工完成的定时，根据监视的数据生成与加工有关的信息，并将生成的与加工有关的信息输出至上位装置2。

伺服增益设定部32根据来自上位装置2的请求设定机械3所具备的伺服电动机的伺服增益。关于伺服增益的设定，能够通过电流环增益、速度环增益、位置环增益、压力控制比例/积分增益等来设定。

进行机器学习的机器学习装置20在通过机械3开始进行加工时进行机械3的伺服增益的调整动作，此外，在基于通过该调整动作调整后的伺服增益机械3的加工结束时，进行该调整动作的学习。

进行机器学习的机器学习装置20具备状态观测部21、判定数据取得部22、学习部23、价值函数切换判定部24、价值函数更新部25、回报计算部26、决策部27、增益变更部28。如图所示，机器学习装置20既可以组入到上位装置2内来构成，也可以由与上位装置2连接的个人电脑等构成。

状态观测部21是观测机械3所具备的机械信息输出部30输出的与机械相关的信息来作为与状态相关的数据，并在机器学习装置20内取得该与状态相关的数据的功能单元。状态观测部21将观测到的与状态相关的数据输出至学习部23。状态观测部21也可以将观测到的与状态相关的数据临时存储在未图示的存储器上来进行管理。状态观测部21观测到的与状态相关的数据既可以是通过机械3的最新的加工运转而取得的数据，也可以是从过去的加工运转取得的数据。

判定数据取得部22是在机器学习装置20内取得机械3所具备的加工信息输出部31输出的与加工相关的信息来作为判定数据的功能单元。判定数据取得部22将所取得的判定数据输出至学习部23。判定数据取得部22也可以将所取得的判定数据临时存储在未图示的存储器中，并与状态观测部21所取得的与状态相关的数据一起进行管理。判定数据取得部22取得的判定数据既可以是通过机械3的最新的加工运转取得的数据，也可以是从过去的加工运转取得的数据。

学习部23根据由状态观测部21观测到的与状态相关的数据、由判定数据取得部22取得的判定数据、以及由后述的回报计算部26计算出的回报，进行与每个优先因素的有关机械的信息以及有关加工的信息相对的伺服增益的调整行为的机器学习(强化学习)。在学习部23进行的机器学习中，通过与某个时刻t的状态相关的数据的组合来定义状态s_t，后述的决策部27根据所定义的状态s_t决定机械3的伺服增益的调整动作，后述的增益变更部28调整机械3的伺服增益的情况成为行为a_t，进行机械3的伺服增益的调整，由机械3进行加工，作为其结果，由后述的回报计算部26根据判定数据取得部22取得的判定数据而计算出的值成为回报r_t+1。根据应用的学习算法来决定在学习中使用的价值函数。例如，在使用Q学习的情况下，按照上述的式2更新行为价值函数Q(s_t，a_t)从而推进学习即可。

价值函数切换判定部24根据用户设定的各机械3的优先因素，决定针对机械3的伺服增益的调整行为，并且基于针对机械3的伺服增益的调整行为的结果切换在机器学习中使用的价值函数。在机器学习装置20的未图示的存储器上设置的价值函数存储部40中预先针对机械的每个优先因素存储了不同的多个价值函数，价值函数切换判定部24根据在进行伺服增益的调整行为的机械3(或者，对伺服增益的调整行为进行机器学习的机械3)中设定的优先因素，选择并切换学习部23、价值函数更新部25、决策部27使用的价值函数。通过这样由价值函数切换判定部24切换每个优先因素的价值函数，能够谋求提高机器学习效率。

价值函数更新部25在将学习部23进行的机器学习的结果应用于价值函数切换判定部24选择出的价值函数后，存储在价值函数存储部40中。在下次及其以后的机器学习中或者在决定伺服增益的调整行为时使用价值函数更新部25在价值函数存储部40中存储的作为学习结果的价值函数。如上所述，在学习结果的存储中，通过近似函数、排列、或者多值输出的SVM、神经网络等监督学习器等存储与使用的机器学习算法相对应的价值函数即可。

回报计算部26根据预先在未图示的存储器上设定的回报条件以及由判定数据取得部22取得的判定数据，来计算在机器学习中使用的回报。

以下，表示了在本实施方式中设定的回报条件的例子。另外，以下所示的回报条件为一例，设计上可以进行各种变更，此外，也可以设定其他各种回报条件。

[回报1：加工品质的提高(正/负回报)]

在将机械3的优先因素设定为提高加工品质的情况下，在加工后的工件的加工精度收敛于预先设定的适当范围的情况下，给予正的回报，此外，在加工精度偏离了预先设定的适当范围的情况下(加工精度过差的情况下，或者，加工精度不必要地过好的情况下)，根据其程度给予负的回报。另外，在给予负的回报的情况下，可以在加工精度过差时给予大的负回报，在加工精度不必要地过好时，给予小的负的回报。

[回报2：生产率的提高(正/负回报)]

在将机械3的优先因素设定为提高生产率的情况下，在与预先设定的预定的基准值相比周期时间中没有大的差异的情况下，给予小的正回报，在与预先设定的预定的基准值相比周期时间短的情况下，给予与其程度对应的正回报。此外，在与预先设定的预定的基准值相比周期时间长的情况下，根据其程度给予负的回报。

[回报3：节能性(正/负回报)]

在将机械3的优先因素设定为节能性的情况下，在与预先设定的预定的基准值相比消耗电力没有大的差异的情况下，给予小的正回报，在与预先设定的预定的基准值相比消耗电力小的情况下，给予与其程度对应的正回报。此外，在与预先设定的预定的基准值相比消耗电力大的情况下，根据其程度给予负的回报。

上述的回报条件不是单独使用，而是希望与优先因素相对应地组合使用多个回报条件。例如，在将优先因素设定为提高加工品质的情况下，并非是仅设定与加工品质的提高相关的回报条件即可，而是还同时设定与生产率的提高、节能性相关的回报条件，当把满足了加工品质提高的回报条件时所获得的回报的量设定为比满足了生产率提高、节能性的回报条件时所获得的回报的量大的值时，能够进行学习，从而选择一边使加工品质优先一边维持最低限度的生产率以及节能的调整行为。在将优先因素设定为生产率的提高或节能性时也同样如此。

决策部27根据由学习部23进行学习而得到的(并且，存储在价值函数存储部40中的)学习结果和由状态观测部21观测到的与状态相关的数据，来决定机械3的伺服增益的调整行为。这里所说的伺服增益的调整行为的决定相当于在机器学习中使用的行为a。关于伺服增益的调整行为，可以将成为调整对象的增益的种类(电流环增益、速度环增益、位置环增益、压力控制比例/积分增益)的选择以及针对所选择的增益的种类调整为何种程度为一组，将各个组作为可选择的行为(例如，将行为1＝电流环增益设定为XX，将行为2＝速度环增益设定为+YY、…)存储在行为模式存储部41中而进行准备，根据过去的学习结果选择行为，使得将来获得的回报成为最大。关于可选择的行为，既可以设为同时调整多个种类的伺服增益的行为，此外，也可以设为同时调整机械3所具备的多个伺服电动机的伺服增益的行为。此外，也可以采用上述的ε贪婪算法，以预定的概率选择随机的行为，由此谋求之后的学习部23进行的学习的进展。

并且，增益变更部28根据由决策部27决定的机械3的伺服增益的调整行为，对机械3的伺服增益设定部32指令进行伺服增益的调整。

使用图6的流程图来说明学习部23进行的机器学习的流程。

[步骤SA01]当开始机器学习时，状态观测部21观测机械3输出的与机械相关的数据来作为与状态相关的数据。

[步骤SA02]学习部23根据状态观测部21观测到的与状态相关的数据来确定当前的状态_St。

[步骤SA03]决策部27根据过去的学习结果和在步骤SA02中确定的状态s_t，来选择行为a_t(机械3的伺服增益的调整行为)。

[步骤SA04]增益变更部28执行在步骤SA03中选择出的行为a_t。

[步骤SA05]状态观测部21观测机械3的与机械相关的信息来作为与状态相关的信息，并且，判定数据取得部22取得机械3的与加工相关的信息来作为判定数据。在该阶段，机械3的状态随着从时刻t至时刻t+1的时间推移，根据在步骤SA04执行的行为a_t而变化。

[步骤SA06]根据在步骤SA05中取得的判定数据，回报计算部26计算出回报r_t+1。

[步骤SA07]根据在步骤SA02确定的状态S_t、在步骤SA03选择的行为a_t、在步骤SA06计算出的回报r_t+1，学习部23推进机器学习，并返回至步骤SA02。

如上所述，增益变更部28根据决策部27的决策，调整机械3的伺服增益，根据调整后的伺服增益对机械3进行控制来加工工件，由状态观测部21观测状态数据并且由判定数据取得部22取得判定数据，反复进行机器学习，由此能够获得更优秀的学习结果。

在使用充分进行了上述的机器学习而获得的学习数据来实际调整机械3的伺服增益时，可以使机器学习装置20不进行新的学习，直接使用充分进行了机器学习而获得的学习数据来进行运转。

此外，也可以将完成了机器学习的机器学习装置20(或者，对其他的机器学习装置20的完成了机器学习后的学习数据进行了复制的机器学习装置20)安装在其他的上位装置2，直接使用充分进行了机器学习时的学习数据来进行运转。

上位装置2的机器学习装置20可以单独进行机器学习，但是当多个控制系统1各自具备的上位装置2分别具备与外部进行通信的通信单元时，能够相互发送接收在各个价值函数存储部40中存储的价值函数来共享该价值函数，能够更高效地进行机器学习。例如，在多个上位装置2中一边分别使不同的调整对象和不同的调整量在预定范围内变动，一边在各个上位装置2之间交换与状态相关的数据、判定数据、作为学习结果的价值函数，由此并行地推进学习从而能够高效地进行学习。

当这样在多个上位装置2之间进行交换时，通信既可以经由未图示的管理装置等来进行，也可以直接在上位装置2之间直接通信，还可以使用云，因为存在处理大量数据的情况，因此优选通信速度尽可能快的通信单元。

以上对本发明的实施方式进行了说明，但本发明并不限定于上述的实施方式的例子，通过增加适当的变更能够以各种方式实施。

例如，在上述实施方式中表示的上位装置2所具备的各功能单元的关系并不限于图5的功能框图所示的关系，只要具备相当于各功能单元的功能的结构，则可以划分为任意的功能单元，此外，可以在功能之间具有任何的上下关系。

此外，在上述实施方式中同时表示了1台机械3具备的伺服电动机的伺服增益的调整，但是例如也可以构成为对配置在工厂的多个机械3同时进行伺服增益的调整，来进行谋求提高整个工厂的节能性的学习。在这样的情况下，将针对多个机械3的伺服增益的调整的组合作为1个行为，在行为模式存储部41中登录调整量等的组合不同的多个行为。并且，由决策部27决定行为使得从多个机械3获得的消耗电力降低，由学习部23对此进行学习，由此能够进行达成上述目的的机器学习。

并且，在上述实施方式中表示了通过价值函数切换判定部24针对每个优先因素切换价值函数的结构，但也可以将优先因素追加至学习部23的输入数据中，并省略价值函数切换判定部24。如此，虽然每个优先因素的机器学习的效率降低，但是通过长期进行机器学习能够获得同样的效果。

以上，对本发明的实施方式进行了说明，但本发明并不限于上述的实施方式的示例，通过增加适当的变更能够以其他方式实施。

Claims

1.一种控制系统，其具备对工件进行加工的至少一个机械、以及对在该机械进行的加工中使用的伺服增益进行调整的上位装置，其特征在于，

所述控制系统具备机器学习装置，该机器学习装置对所述机械的伺服增益的调整进行机器学习，

所述机器学习装置具备：

状态观测部，其观测所述机械的与机械相关的信息来作为状态数据；

判定数据取得部，其取得与所述机械进行的加工相关的信息来作为判定数据；

回报计算部，其根据所述判定数据和预先设定的回报条件来计算回报；

学习部，其对所述机械的伺服增益的调整进行机器学习；

决策部，其根据所述学习部对于所述机械的伺服增益的调整的机器学习结果和所述状态数据，决定所述机械的伺服增益的调整行为；

增益变更部，其根据由所述决策部决定的伺服增益的调整行为，变更所述机械的伺服增益；以及

价值函数切换判定部，其根据对所述机械预先设定的优先因素，来切换在所述机器学习以及所述调整行为的决定中使用的价值函数，

所述学习部根据所述状态数据、所述调整行为、在所述调整行为后计算出的回报，对所述机械的伺服增益的调整进行机器学习。

2.根据权利要求1所述的控制系统，其特征在于，

关于所述回报条件，根据对每个所述优先因素设定的回报条件来计算正或负的回报。

3.根据权利要求1或2所述的控制系统，其特征在于，

所述控制系统与至少一个其他的数值控制装置连接，

在与其他的所述上位装置之间相互交换或共享机器学习的结果。

4.一种机器学习装置，其针对在加工工件的至少一个机械进行的加工中使用的伺服增益的调整进行机器学习，其特征在于，具备：

学习部，其对所述机械的伺服增益的调整进行机器学习；