CN108363356B

CN108363356B - 行动信息学习装置、行动信息最优化系统以及计算机可读介质

Info

Publication number: CN108363356B
Application number: CN201810069763.XA
Authority: CN
Inventors: 佟正; 西村卓真; 稻口雄三
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2017-01-26
Filing date: 2018-01-24
Publication date: 2019-07-09
Anticipated expiration: 2038-01-24
Also published as: US20180210431A1; CN108363356A; JP2018120453A; US10509397B2; JP6453919B2; DE102018200794A1; DE102018200794B4

Abstract

本发明涉及行动信息学习装置、行动信息最优化系统以及计算机可读介质。进行能够选择用于避免发生过热并缩短循环时间的行动信息的强化学习。行动信息学习装置具备：状态信息获取单元，获取状态信息，该状态信息包含与机床的加工有关的主轴的动作模式和参数的组合；行动信息输出单元，输出行动信息，该行动信息包含状态信息中包含的动作模式和参数的组合的调整信息；奖励计算单元，获取判定信息，并根据获取到的该判定信息输出强化学习中的奖励的值，该判定信息是关于机床的温度和与机床的加工有关的加工时间的信息；以及价值函数更新单元，通过根据奖励的值、状态信息以及行动信息进行强化学习，来更新价值函数。

Description

行动信息学习装置、行动信息最优化系统以及计算机可读介质

技术领域

本发明涉及一种进行与用于对机床等进行控制的行动信息有关的学习的行动信息学习装置和计算机可读介质以及用于使行动信息最优化的行动信息最优化系统。

背景技术

为了提高机床的生产性，需要缩短用于对工件进行加工的加工时间即循环时间。作为用于缩短循环时间的方法，例如能够想到提高机床的切削进给的速度、使机床所具备的主轴、进给轴的加减速的时间常数变短。

然而，当提高切削进给的速度、或者使主轴、进给轴的加减速的时间常数变短时，施加于包括电动机或放大器的各轴的驱动装置的负荷变大。其结果，驱动装置因发热而过热，有可能引发驱动装置的损伤、动作不良。

为了防止这样的状况，一般的技术是当由于发热而驱动装置的温度即将上升到过热之前时，发出警报来使驱动部的动作停止。由此，能够防止由于驱动装置过热而使驱动装置损伤等。然而，产生如下问题：由于在从使驱动装置暂时停止运转起直到驱动装置冷却而温度下降为止的期间内无法进行再运转，因此导致加工被中断。

考虑到该问题，在专利文献1所公开的技术中，在由于发热而驱动装置的温度上升到了规定的温度的情况下，不是使驱动部立即停止，而是使驱动部的动作速度下降。这样，能够防止驱动装置的温度进一步上升，并使驱动部运转来继续进行加工。

专利文献1：日本特开2003-5836号公报

发明内容

发明要解决的问题

如上所述，通过利用专利文献1所公开的技术，即使在基于所设定的加工程序进行加工处理时驱动装置有可能发生过热的情况下，也能够通过调整该加工程序来继续进行加工。

然而，在专利文献1所公开的技术中，在基于所设定的加工程序进行加工处理时驱动装置有可能发生过热的情况下，使驱动部的动作速度下降，因此用于对工件进行加工的循环时间变长。也就是说，在专利文献1所公开的技术中，存在机床的生产性下降的问题。

因此，本发明的目的在于提供一种用于进行能够针对状态信息(例如包含后述的加工程序和参数等的信息)选择行动信息(例如包含后述的该加工程序的调整和该加工程序执行时的参数的调整的信息)的强化学习的行动信息学习装置和行动信息学习程序以及用于选择这样的行动信息的行动信息最优化系统，其中，该状态信息包含与机床中的预先设定的加工处理有关的主轴的动作模式、参数等的组合的状态信息，该行动信息包含避免发生过热并使该加工循环时间为最短那样的该状态信息的调整信息。

用于解决问题的方案

(1)、本发明的行动信息学习装置(例如，后述的行动信息学习装置300)具备：状态信息获取单元(例如，后述的状态信息获取部310)，其获取状态信息，该状态信息包含与机床(例如，后述的机床100)的加工有关的主轴的动作模式和参数的组合(例如，后述的加工程序和参数的组合)；行动信息输出单元(例如，后述的行动信息输出部320)，其输出行动信息，该行动信息包含所述状态信息中包含的所述动作模式和所述参数的组合的调整信息；奖励计算单元(例如，后述的奖励计算部333)，其获取关于所述机床的温度和与所述机床的所述加工有关的加工时间的信息即判定信息，根据获取到的该判定信息输出强化学习中的奖励(reward)的值；以及价值函数更新单元(例如，后述的价值函数更新部332)，其通过根据所述奖励的值、所述状态信息以及所述行动信息进行所述强化学习，来更新价值函数。

(2)、根据上述(1)所记载的行动信息学习装置，也可以设为，作为所述主轴的动作模式，所述状态信息包含关于切削进给的速度和使主轴在指定时间内待机的暂停中的任一方或双方的动作模式，所述调整信息包含用于对所述状态信息所包含的所述动作模式进行调整的信息。

(3)、根据上述(1)或(2)所记载的行动信息学习装置，也可以设为，作为所述参数，所述状态信息包含关于加减速的时间常数和切削进给的速度改写中的任一方或双方的参数，所述调整信息包含用于对所述状态信息所包含的所述参数进行调整的信息。

(4)、根据上述(1)至(3)中的任一项所记载的行动信息学习装置，也可以设为，在所述机床的温度为规定的温度以上的情况下，所述奖励计算单元将所述奖励的值设为负的值，在所述机床的温度小于规定的温度且所述机床的加工时间比前次的加工时间短的情况下，所述奖励计算单元将所述奖励的值设为正的值，在所述机床的温度小于规定的温度且所述机床的加工时间比前次的加工时间长的情况下，所述奖励计算单元将所述奖励的值设为负的值。

(5)、根据上述(1)至(4)中的任一项所记载的行动信息学习装置，也可以设为，与其它的行动信息学习装置之间共享所述价值函数，所述价值函数更新单元对共享的所述价值函数进行更新。

(6)、本发明的行动信息最优化系统(例如，后述的行动信息最优化系统1)具备上述(1)至(5)中的任一项所记载的行动信息学习装置以及行动信息最优化装置(例如，后述的行动信息最优化装置400)，在该行动信息最优化系统中，所述行动信息最优化装置根据由所述价值函数更新单元更新后的价值函数，生成用于使由所述机床进行的所述加工的价值为最大的行动信息即最优化行动信息，输出所生成的该最优化行动信息以使所述机床进行所述加工。

(7)、本发明的行动信息学习程序使计算机作为行动信息学习装置发挥功能，该行动信息学习装置具备：状态信息获取单元，其获取状态信息，该状态信息包含与机床的加工有关的主轴的动作模式和参数的组合；行动信息输出单元，其输出行动信息，该行动信息包含所述状态信息中包含的所述动作模式和所述参数的组合的调整信息；奖励计算单元，其获取判定信息，并根据获取到的该判定信息输出强化学习中的奖励的值，该判定信息是关于所述机床的温度和与所述机床的所述加工有关的加工时间的信息；以及价值函数更新单元，其通过根据所述奖励的值、所述状态信息以及所述行动信息进行所述强化学习，来更新价值函数。

发明的效果

根据本发明，为了避免发生过热并缩短循环时间，能够进行能够选择行动信息的强化学习，该行动信息包含状态信息的调整信息，该状态信息包含与机床中的预先设定的加工处理有关的主轴的动作模式、参数等的组合。另外，根据本发明，能够选择这样的行动信息。

附图说明

图1是表示本发明的实施方式整体的基本结构的框图。

图2是表示本发明的实施方式中包含的各装置所具备的功能块的框图。

图3是表示本发明的实施方式中的强化学习时的基本的动作的流程图。

图4是表示本发明的实施方式中的最优化行动信息的选择时的基本动作的流程图。

附图标记说明

100：机床；110：主轴电动机；120：温度测定部；130：循环计数器；200：数值控制装置；210：电动机控制部；220：参数设定部；300：行动信息学习装置；310：状态信息获取部；320：行动信息输出部；330：学习部；331：奖励计算部；332：价值函数更新部；333：行动信息生成部；340：价值函数存储部；400：行动信息最优化装置；500：网络。

具体实施方式

接着，参照附图详细地说明本发明的实施方式。

首先，说明本实施方式所涉及的行动信息最优化系统1的结构。如图1所示，行动信息最优化系统1具备n台机床100、n台数值控制装置200、m台行动信息学习装置300、行动信息最优化装置400以及网络500。此外，n和m是任意的自然数。

在此，数值控制装置200与机床100以一对一为一组的方式可通信地进行了连接。数值控制装置200与机床100可以经由连接接口直接连接，并且也可以经由LAN(Local AreaNetwork：局域网)等网络连接。这些数值控制装置200与机床100的组例如可以在相同的工厂中设置多组，也可以分别设置在不同的工厂中。

另外，数值控制装置200、行动信息学习装置300以及行动信息最优化装置400分别经由连接接口直接连接、或者分别经由网络500进行连接，能够相互进行通信。此外，网络500例如是在工厂内构建出的LAN、因特网、公用电话网、或者它们的组合。关于网络500的具体的通信方式、有线连接和无线连接中的哪一个等，不特别地进行限定。

接着，参照图2说明行动信息学习系统1中包含的这些装置的功能。在此，图2是表示各装置中包含的功能块的框图。此外，各数值控制装置200分别具有同等的功能，因此在图2中仅图示一台数值控制装置200。同样地，各机床100、各行动信息学习装置300也各自具有同等的功能，因此在图2中各自仅图示一台。另外，关于存在于各装置间的网络500，省略其图示。

机床100是根据在数值控制装置200中设定的加工程序和在数值控制装置200中设定的参数(例如加减速的时间常数、切削进给速度改写值等)的设定值并按照生成的动作指令进行例如切削加工的机床。机床100具备主轴电动机110、温度测定部120以及循环计数器130。

主轴电动机110是用于进行切削加工的主轴电动机。在主轴电动机110中安装有切削加工用的刃具(省略图示)，利用通过主轴电动机110而旋转的主轴(省略图示)和将该主轴送出的进给轴(省略图示)来进行切削加工。

温度测定部120是对主轴电动机110的温度进行测定的温度传感器。将温度测定部120所测定出的温度作为温度信息(表示主轴温度的值或表示主轴温度的上升量的值)输出到数值控制装置200。此外，温度测定部120可以内置于主轴电动机110，并且也可以设置在主轴电动机110附近。

循环计数器130是在机床100进行了规定的切削加工的情况下用于测量该切削加工所需要的加工时间即循环时间的计数器。循环计数器130测量出的循环时间被输出到数值控制装置200。

数值控制装置200是通过对机床100进行控制来使机床100进行规定的切削加工的装置。另外，数值控制装置200对行动信息学习装置300发送状态信息(也称为“状态(status)”)。并且，数值控制装置200从行动信息学习装置300接收行动信息(也称为“行动(action)”)。关于这些各信息的详细内容，与行动信息学习装置300的功能块的说明一同进行说明。

数值控制装置200具备电动机控制部210、参数设定部220以及程序修正部230。

电动机控制部210根据加工程序和参数(例如加减速的时间常数、切削进给速度改写值等)的设定值生成动作指令，通过将所生成的动作指令发送到机床100，来对机床100的主轴电动机110等的驱动进行控制。由此，实现利用机床100进行的切削加工。在此，在加工程序中定义了切削加工的条件(主轴的旋转数、切削进给的速度、切削时间以及保持原有的状态而在指定时间内待机的暂停等)。

参数设定部220是对与机床100的基于该加工程序进行的加工处理有关的参数进行设定的部分。机床100的参数是指例如与加减速的时间常数、改写有关的参数。根据从行动信息学习装置300输出的行动信息、从行动信息最优化装置400输出的最优化行动信息来调整所述参数的设定值。

程序修正部230直接对加工程序进行修正。具体地说，关于通过该加工程序描述的切削进给速度、暂停等，程序修正部230根据从行动信息学习装置300输出的行动信息、从行动信息最优化装置400输出的最优化行动信息直接修正程序代码。

以上，关于机床100和数值控制装置200的功能块进行了说明，上述的功能块是与本实施方式的动作特别相关的部分。机床100和数值控制装置200除了具备上述的功能块以外，还具备一般的功能块。例如，具备用于使工件移动的伺服电动机、用于对伺服电动机进行控制的控制部、用于进行位置和速度反馈控制的位置和速度检测器、将动作指令放大的电动机驱动放大器、用于受理用户的操作的操作板等来作为功能块。然而，关于这些一般的功能块，是本领域技术人员普遍知道的，因此省略详细的说明和图示。

行动信息学习装置300是进行强化学习的装置。在说明行动信息学习装置300中包含的各功能块之前，首先说明强化学习的基本结构。智能体(Agent)(相当于本实施方式中的行动信息学习装置300)观测环境的状态，选择某个行动，环境根据相应的行动而变化。伴随着环境的变化，赋予一些奖励，智能体学习更好的行动的选择(意思决定)。

相对于监督学习示出完全的正解而言，强化学习中的奖励是基于环境的局部变化的片段式的值的情形较多。

因此，智能体如以使将来的奖励的合计为最大的方式选择行动那样地进行学习。

这样，在强化学习中，学习如下一种方法：通过对行动进行学习，由此基于行动对环境带来的相互作用来学习适当的行动、即进行用于使将来能够获得的奖励最大的学习。在本实施方式中，这表示例如选择用于避免发生过热并缩短循环时间的行动信息这样能够获得对未来带来影响那样的行动的情形。

在此，作为强化学习，能够使用任意的学习方法，但是在以下的说明中，以使用对在某个环境的状态s下选择行动a的价值Q(s，a)进行学习的方法即Q学习(Q-learning)的情况为例进行说明。

Q学习的目的在于，在某个状态s时，从能够采取的行动a中选择价值Q(s，a)最高的行动a来作为最佳的行动。

然而，在最初开始Q学习的时间点，关于状态s与行动a的组合，完全不知道价值Q(s，a)的准确的值。因此，智能体在某个状态s下选择各种行动a，根据对此时的行动a赋予的奖励来进行更好的行动的选择，由此不断地学习准确的价值Q(s，a)。

另外，由于希望使将来能够获得的奖励的合计最大化，因此最终目的是使得Q(s，a)＝E[Σ(γ^t)r_t]。其中，E[]表示期待值，t为时刻，γ为后述的被称为折扣率的参数，r_t为时刻t时的奖励，Σ为基于时刻t的合计。该式中的期待值是按照最佳的行动发生状态变化的情况下的期待值。但是，在Q学习的过程中不清楚哪个是最佳的行动，因此通过进行各种行动，在探索的同时进行强化学习。这样的价值Q(s，a)的更新式能够通过例如下面的式(1)来表示。

[数1]

在上述的式(1)中，s_t表示时刻t时的环境的状态，a_t表示时刻t时的行动。通过行动a_t，状态变化为s_t+1。r_t+1表示根据该状态的变化所获得的奖励。另外，带有max的项是在状态s_t+1下选择了当时所知道的Q值最高的行动a的情况下的Q值乘以γ而得到的。其中，γ为0<γ≤1的参数，被称为折扣率。另外，α为学习系数，设为处于0<α≤1的范围。

上述的式(1)表示基于尝试a_t的结果所返回来的奖励r_t+1更新状态s_t下的行动a_t的价值Q(s_t，a_t)的方法。

该更新式表示，如果与状态s_t下的行动a_t的价值Q(s_t，a_t)相比，通过行动a_t所形成的下一个状态s_t+1下的最佳的行动的价值max_aQ(s_t+1，a)更大，则使Q(s_t，a_t)变大，相反则使Q(s_t，a_t)变小。也就是说，使某个状态下的某个行动的价值向通过该动作所形成的下一个状态下的最佳的行动的价值接近。但是，其差根据折扣率γ和奖励r_t+1的现状而不断改变，基本上是某个状态下的最佳的行动的价值向成为该状态前的一个状态下的行动的价值传播的结构。

在此，Q学习存在如下一种方法：创建关于所有的状态行动对(s，a)的Q(s，a)的表来进行学习。但是，为了求出所有的状态行动对的Q(s，a)的值，存在状态数过多而导致Q学习收敛需要很多时间的情况。

因此，也可以利用公知的被称为DQN(Deep Q-Network)的技术。具体地说，也可以使用适当的神经网络构成价值函数Q，调整神经网络的参数，来用适当的神经网络对价值函数Q进行近似，由此计算价值Q(s，a)的值。通过利用DQN，能够缩短Q学习收敛所需要的时间。此外，关于DQN，例如在以下的非专利文献中有详细的记载。

<非专利文献>

“Human-level control through deep reinforcement learning”、VolodymyrMnih1著[online]、[2017年1月17日检索]、因特网<URL：http://files.davidqiu.com/research/nature14236.pdf>

行动信息学习装置300进行以上所说明的Q学习。具体地说，行动信息学习装置300对选择在机床100中设定的加工程序的内容和该加工程序执行时的参数的组合等作为状态s、选择与该状态s有关的该加工程序的修正和参数的调整作为行动a的价值Q进行学习。

行动信息学习装置300观测在机床100中设定的加工程序和参数等的状态s，并决定行动a。行动信息学习装置300每当进行行动a时都返回奖励。行动信息学习装置300通过试错来探索最佳的行动a以使将来的奖励的合计为最大。通过这样，行动信息学习装置300能够针对作为在机床中设定的加工程序的内容和该加工程序执行时的参数的组合等的状态s选择最佳的行动a。

即，根据通过行动信息学习装置300学习得到的价值函数Q，来针对与某个状态s有关的加工程序和参数的组合选择适用的行动a中的使Q的值为最大那样的行动a，由此能够选择避免发生过热并使该加工循环时间为最短那样的行动a。

为了进行以上的强化学习，行动信息学习装置300具备状态信息获取部310、行动信息输出部320、学习部330以及价值函数存储部340。

状态信息获取部310是从数值控制装置200(和/或机床100)获取作为加工程序的内容和该加工程序执行时的参数的组合等的状态信息s的部分。该状态信息s相当于Q学习中的环境状态s。

具体地说，在本实施方式的状态信息s中包含用于对机床100进行控制的加工程序的内容和该加工程序执行时的参数的组合、基于该加工程序等执行加工处理之前的机床100的主轴温度以及基于该加工程序等执行加工处理的情况下的循环时间。状态信息获取部310对学习部330输出获取到的状态信息s。

另外，状态信息获取部310还获取用于计算用于进行Q学习的奖励的判定信息。具体地说，将与状态信息s有关的加工程序和该加工程序执行时的参数的组合、执行加工处理后的机床100的主轴温度以及执行了该加工处理的情况下的循环时间设为用于计算用于进行Q学习的奖励的判定信息。

行动信息输出部320是对数值控制装置200发送从学习部330输入的行动信息a的部分。数值控制装置200如上述那样根据该行动信息来对当前的状态s即当前设定的加工程序和参数进行修正，由此转变为下一个状态s′(即，包含修正后的加工程序、修正后的参数、机床100的主轴温度以及基于修正后的该加工程序和修正后的参数执行加工处理的情况下的循环时间的状态)。

学习部330是对在某个环境状态s下选择某个行动a的情况下的价值Q(s，a)进行学习的部分。具体地说，学习部330具备奖励计算部331、价值函数更新部332以及行动信息生成部333。

奖励计算部331是根据判定信息计算在某个状态s下选择了行动a的情况下的奖励的部分。在此，在本实施方式中，在根据与基于行动信息a而修正后的状态信息s′有关的修正后的加工程序和该修正后的加工程序执行时的修正后的参数值进行了动作的机床100发生过热的情况下，将奖励的值设为负的值。

另外，在根据与基于行动信息a而修正后的状态信息s′有关的修正后的加工程序和该修正后的加工程序执行时的修正后的参数值进行了动作的机床100的循环时间比与基于行动信息a修正之前的状态信息s有关的修正前的加工程序和该修正前的加工程序执行时的修正前的参数值进行了动作的机床100的循环时间长的情况下，也将奖励的值设为负的值。

另一方面，在根据与基于行动信息a而修正后的状态信息s′有关的修正后的加工程序和该修正后的加工程序执行时的修正后的参数值进行了动作的机床100没有发生过热且循环时间比根据与基于行动信息a修正之前的状态信息s有关的修正前的加工程序和该修正前的加工程序执行时的修正前的参数值进行了动作的机床100的循环时间短的情况下，将奖励的值设为正的值。

另外，当对奖励的值赋予权重时，例如由于过热是不好的状态，因此优选的是将发生过热的情况下的负值的大小大于循环时间变长的情况下的负值。

另外，作为执行行动a后的状态s′的循环时间比执行行动a前的状态s下的循环时间长的情况下的负值，也可以根据比率使负值变大。也就是说，根据循环时间变长的程度使负值变大即可。相反地，作为执行行动a后的状态s′的循环时间比执行行动a前的状态s下的循环时间短的情况下的正值，也可以根据比率使正值变大。也就是说，根据循环时间变短的程度使正值变大即可。

价值函数更新部332通过根据状态s、行动a、将行动a应用于状态s的情况下的状态s′以及如上述那样计算出的奖励的值来进行Q学习，由此更新价值函数存储部340所存储的价值函数Q。

价值函数Q的更新可以通过在线学习来进行，也可以通过批量学习来进行，还可以通过批量梯度下降(mini-batche)学习来进行。

在线学习是指通过将某个行动a应用于当前的状态s而状态s每次转变为新的状态s′时都立即进行价值函数Q的更新的学习方法。另外，批量学习是指通过将某个行动a应用于当前的状态s来重复状态s转变为新的状态s′的情形由此收集学习用的数据并使用收集的所有学习用数据进行价值函数Q的更新的学习方法。并且，批量梯度下降学习是指每当储存在线学习与批量学习的中间的某种程度的学习用数据时都进行价值函数Q的更新的学习方法。

行动信息生成部333生成行动信息a并将所生成的行动信息a输出到行动信息输出部320以在Q学习的过程中使机床100进行各种动作(相当于Q学习中的行动a)。

具体地说，行动信息生成部333针对当前的状态s选择Q学习的过程中的行动a。在本实施方式的行动信息a中包含通过与当前的状态s有关的加工程序描述的切削进给速度、暂停等修正信息以及与当前的状态s有关的参数(例如加减速的时间常数、切削进给速度改写值等)的设定值。

行动信息生成部333例如也可以采取如下策略：针对状态s中包含的加工程序和参数来应用行动a中包含的切削进给速度、暂停等修正信息以及参数(例如加减速的时间常数、切削进给速度改写值等)的设定值，而转变为状态s′，在返回正的奖励(正值的奖励)的情况下，作为下一个行动a′，例如选择使切削进给速度递增、或使时间常数递减等使循环时间更短那样的行动a′。

另外，相反地，也可以采取如下策略：在返回负的奖励(负值的奖励)的情况下，作为下一个行动a′，行动信息生成部333例如选择使切削进给速度递减、或使时间常数递增等使负荷更少那样的行动a′。

另外，行动信息生成部333也可以通过在当前估计的行动a的价值中选择价值Q(s，a)最高的行动a′的贪心法、以某个较小的概率ε随机地选择行动a′且除此以外选择价值Q(s，a)最高的行动a′的ε贪心法这样的公知方法，来选择行动a′。

价值函数存储部340是存储价值函数Q的存储装置。通过价值函数更新部332来更新价值函数存储部340中存储的价值函数Q。另外，也可以与其它的行动信息学习装置300之间共享价值函数存储部340中存储的价值函数Q。如果在多个行动信息学习装置300中共享价值函数Q，则能够由各行动信息学习装置300分散地进行强化学习，因此能够提高强化学习的效率。

行动信息最优化装置400是根据通过价值函数更新部332进行Q学习而更新后的价值函数Q来生成用于使机床100进行价值Q(s，a)为最大的动作的行动信息a(以下称为“最优化行动信息”。)的装置。

行动信息最优化装置400具备最优化行动信息输出部410。

最优化行动信息输出部410获取价值函数存储部340所存储的价值函数Q。如上述那样通过价值函数更新部332进行Q学习来更新该价值函数Q。然后，最优化行动信息输出部410根据价值函数Q生成最优化行动信息，并将所生成的最优化行动信息输出到数值控制装置200。与行动信息输出部320在进行Q学习的过程中输出的行动信息同样地，在该最优化行动信息中包含修正后的加工程序和该修正后的加工程序执行时的修正后的参数值。

数值控制装置200根据该最优化行动信息来修正当前设定的加工程序和参数，并生成动作指令，由此机床100能够进行动作以避免发生过热并使该加工循环时间为最短。

以上说明了数值控制装置200、行动信息学习装置300、行动信息最优化装置400中包含的功能块。

为了实现这些功能块，数值控制装置200、行动信息学习装置300以及行动信息最优化装置400分别具备CPU(Central Processing Unit：中央处理单元)等运算处理装置。另外，数值控制装置200、行动信息学习装置300以及行动信息最优化装置400还分别具备保存有应用软件、OS(Operating System：操作系统)等各种控制用程序的HDD(Hard DiskDrive：硬盘驱动器)等辅助存储装置、用于保存运算处理装置执行程序时暂时需要的数据的RAM(Random Access Memory：随机存取存储器)这样的主存储装置。

而且，在数值控制装置200、行动信息学习装置300以及行动信息最优化装置400的各个中，运算处理装置从辅助存储装置读入应用软件、OS，使所读入的应用软件、OS解压缩到主存储装置中的同时进行基于这些应用软件、OS的运算处理。另外，根据该运算结果，对各装置所具备的各种硬件进行控制。由此，能够实现本实施方式的功能块。也就是说，本实施方式能够通过硬件与软件进行协作来实现。

作为具体例，数值控制装置200能够通过将用于实现本实施方式的应用软件嵌入于一般的数值控制装置中来实现。另外，行动信息学习装置300、行动信息最优化装置400能够通过将用于实现本实施方式的应用软件嵌入于一般的个人计算机中来实现。

但是，关于行动信息学习装置300，由于伴随机械学习所产生的运算量多，因此例如可以在个人计算机中搭载GPU(Graphics Processing Units：图形处理单元)，通过被称为GPGPU(General-Purpose computing on Graphics Processing Units：通用图形处理单元)的技术，当将GPU利用于伴随机械学习所产生的运算处理中时，能够进行高速处理。进一步地说，为了进行更高速的处理，也可以使用多台这样的搭载有GPU的计算机来构建计算机集群，通过该计算机集群中包含的多个计算机来进行并行处理。

接着，参照图3的流程图说明本实施方式中的Q学习时的行动信息学习装置300的动作。

首先，在步骤11中，状态信息获取部310从数值控制装置200获取状态信息。获取到的状态信息被输出到价值函数更新部332、行动信息生成部333。如上所述，该状态信息是相当于Q学习中的状态s的信息，包含步骤S11时间点的、加工程序的内容和参数的设定值、机床100的主轴温度以及根据该加工程序和参数进行了加工处理的情况下的循环时间。此外，最初开始Q学习的时间点的加工程序和参数的设定值预先由用户生成。也就是说，在本实施方式中，将用户所创建的加工程序和参数的初始设定值通过强化学习调整为最佳的值。

在步骤12中，行动信息生成部333生成新的行动信息，并将所生成的新的行动信息经由行动信息输出部320输出到数值控制装置200。接收到行动信息的数值控制装置200基于根据接收到的行动信息对与当前的状态s有关的加工程序和参数进行修正后的状态s′来驱动机床100并进行切削加工。如上所述，该行动信息相当于Q学习中的行动a。在此，在行动信息中例如包含对切削进给的速度、暂停的时间等进行定义的加工程序的修正值以及以加减速的时间常数为首的参数的设定值的点如上述那样。

在步骤S13中，状态信息获取部310获取关于新的状态s′的判定信息。在此，在新的状态s′中包含与状态s′有关的加工程序和参数、主轴的温度信息以及进行与状态s′有关的加工处理所需要的循环时间。另外，判定信息包含通过进行与状态s′有关的加工处理而发生了变化的温度信息以及进行与状态s′有关的加工处理所需要的循环时间。获取到的判定信息被输出到价值函数更新部332。

价值函数更新部332根据被输入的判定信息计算奖励。为此，在步骤14中，价值函数更新部332根据判定信息中包含的温度信息，判定是否由于执行了与状态s′有关的加工程序和参数而机床100的驱动部发生了过热。

在此，如果发生了过热(步骤S14：是(Yes))，则在步骤S15中将奖励设为第一值。其中，第一值设为负的值。另一方面，如果没有发生过热(步骤S14：否(No))，则进入步骤S16。

在步骤S16中，根据判定信息中包含的循环时间来判定循环时间是否变短。能够通过将状态s′的判定信息中包含的进行与状态s′有关的加工处理所需要的循环时间和状态s′之前的状态即状态s的判定信息中包含的进行与状态s有关的加工处理所需要的循环时间进行比较来进行所述的判定。

在此，如果循环时间变短(步骤S16：是)，则在步骤S17中将奖励设为第二值。其中，第二值设为正的值。另一方面，如果循环时间没有变短(步骤S16：否)，则在步骤S18中将奖励设为第三值。其中，第三值设为负的值。此外，如上所述，也可以对第一值、第二值以及第三值进行加权。

当步骤S15、步骤S17以及步骤S18中的任一个步骤结束时，在步骤S19中，价值函数更新部332根据在该任一个步骤中计算出的奖励的值来更新价值函数存储部340所存储的价值函数Q。然后，再次返回到步骤S11，通过重复上述的处理，来使价值函数Q收敛于适当的值。此外，也可以将重复进行规定次数上述处理、重复进行规定时间上述处理作为条件而结束处理。

此外，步骤S15例示了在线更新，代替在线更新，也可以替换为批量更新或批量梯度下降更新。

以上，根据参照图3说明的动作，在本实施方式中起到如下效果：能够生成价值函数Q，该价值函数Q用于生成用于避免发生过热并缩短循环时间的行动信息。

接着，参照图4的流程图说明行动信息最优化装置400生成最优化行动信息时的动作。

首先，在步骤S21中，行动信息最优化装置400的最优化行动信息输出部410获取价值函数存储部340所存储的价值函数Q。如上述那样，价值函数更新部332通过进行Q学习来更新该价值函数Q。

在步骤S22中，最优化行动信息输出部410根据该价值函数Q生成最优化行动信息，将所生成的最优化行动信息输出到数值控制装置200。

如以上那样，起到如下效果：数值控制装置200根据该最优化行动信息对当前设定的加工程序和参数进行修正，并生成动作指令，由此机床100能够进行动作以避免发生过热并使该加工循环时间为最短。

另外，根据参照图4说明的动作，在本实施方式中，还起到如下效果：根据价值函数Q生成最优化行动信息，根据该最优化行动信息对当前设定的加工程序和参数进行修正，并生成动作指令，由此能够以避免发生过热并缩短循环时间的方式对机床100进行控制。

更详细地说明本实施方式的该效果。作为前提，通过调整加工程序来提高切削进给的速度，能够缩短循环时间。另一方面，通过降低切削进给的速度，能够抑制主轴的发热。另外，通过调整加工程序来使暂停变短，能够缩短循环时间。另一方面，通过使暂停延长，能够抑制主轴的发热。并且，通过调整参数的设定值来使加减速的时间常数变短，能够缩短循环时间。另一方面，通过使加减速的时间常数变长，能够抑制主轴的发热。

这样，循环时间的缩短与主轴的发热处于折衷关系的情形较多。因此，难以通过适当地调整加工程序、参数的设定值来避免发生过热并缩短循环时间。

因而，在一般的技术中，在要发生过热的情况下，对症疗法是使驱动部停止、或者使驱动部的速度下降。

与此相对地，在本实施方式中，通过如上述那样调整加工程序、参数的设定值并进行强化学习，能够避免发生过热并缩短循环时间。即，本实施方式与一般的技术相比起到更有利的效果。

此外，上述行动信息学习系统中包含的各装置分别能够通过硬件、软件或它们的组合来实现。另外，通过上述行动信息学习系统中包含的各装置的各自协作进行的行动信息学习方法也能够通过硬件、软件或它们的组合来实现。在此，通过软件实现意味着通过计算机读入程序并执行程序来实现。

程序能够使用各种类型的非暂时性的计算机可读介质(non-transitorycomputer readable medium)来保存并提供给计算机。非暂时性的计算机可读介质包含各种类型的有实体的记录介质(tangible storage medium：有形存储介质)。非暂时性的计算机可读介质的例子包含磁记录介质(例如，软盘、磁带、硬盘驱动器)、磁光记录介质(例如，磁光盘)、CD-ROM(Read Only Memory：只读存储器)、CD-R、CD-R/W、半导体存储器(例如，掩模ROM、PROM(Programmable ROM：可编程ROM)、EPROM(Erasable PROM：可擦PROM)、快闪ROM、RAM(random access memory：随机存取存储器))。另外，程序也可以通过各种类型的暂时性的计算机可读介质(transitory computer readable medium)来提供给计算机。暂时性的计算机可读介质的例子包含电信号、光信号以及电磁波。暂时性的计算机可读介质能够经由电线以及光纤等有线通信路径、或无线通信路径来将程序提供给计算机。

另外，上述的实施方式是本发明的较佳的实施方式，但是并非将本发明的范围仅限定于上述实施方式，在不脱离本发明的宗旨的范围内能够以实施各种变更得到的方式进行实施。

在上述的实施方式中，作为机床100，列举了进行切削加工的机床的例子，但是不限定于此。例如也可以将进行磨削加工、研磨加工、轧制加工、或者锻造加工这样的其它加工的机床设为机床100。

在上述的实施方式中，假定将行动信息学习装置300、行动信息最优化装置400通过与机床100、数值控制装置200相独立的装置来实现，但是也可以使行动信息学习装置300、行动信息最优化装置400的功能的一部分或全部通过机床100、数值控制装置200来实现。另外，也可以通过一个装置来实现行动信息学习装置300和行动信息最优化装置400双方的功能。

Claims

1.一种行动信息学习装置，具备：

状态信息获取单元，其获取状态信息，该状态信息包含与机床的加工有关的主轴的动作模式和参数的组合、即包含切削进给的速度和使主轴在指定时间内待机的暂停中的至少任一方的动作模式与包含加减速的时间常数和切削进给的速度改写中的至少任一方的参数的组合；

行动信息输出单元，其输出行动信息，该行动信息包含所述状态信息中包含的所述动作模式和所述参数的组合的调整信息；

奖励计算单元，其获取判定信息，并根据获取到的该判定信息输出强化学习中的奖励的值，该判定信息是关于所述机床的温度和与所述机床的所述加工有关的加工时间的信息；以及

价值函数更新单元，其通过根据所述奖励的值、所述状态信息以及所述行动信息进行所述强化学习，来更新价值函数，

其中，在所述机床的温度为规定的温度以上的情况下，所述奖励计算单元将所述奖励的值设为第一负的值，

在所述机床的温度小于规定的温度且所述机床的加工时间比前次的加工时间短的情况下，所述奖励计算单元将所述奖励的值设为正的值，

在所述机床的温度小于规定的温度且所述机床的加工时间比前次的加工时间长的情况下，所述奖励计算单元将所述奖励的值设为第二负的值。

2.根据权利要求1所述的行动信息学习装置，其特征在于，

所述奖励计算单元使所述第一负的值的大小大于所述第二负的值的大小。

3.根据权利要求1或2所述的行动信息学习装置，其特征在于，

所述奖励计算单元根据所述机床的加工时间相比于前次的加工时间缩短的程度，来使所述正的值增大，

所述奖励计算单元根据所述机床的加工时间相比于前次的加工时间延长的程度，来使所述第二负的值增大。

4.根据权利要求1或2所述的行动信息学习装置，其特征在于，

与其它的行动信息学习装置之间共享所述价值函数，

所述价值函数更新单元对共享的所述价值函数进行更新。

5.根据权利要求3所述的行动信息学习装置，其特征在于，

与其它的行动信息学习装置之间共享所述价值函数，

所述价值函数更新单元对共享的所述价值函数进行更新。

6.一种行动信息最优化系统，具备行动信息最优化装置和根据权利要求1至5中的任一项所述的行动信息学习装置，其中，

所述行动信息最优化装置根据由所述价值函数更新单元更新后的价值函数，生成用于使由所述机床进行的所述加工的价值为最大的行动信息、即最优化行动信息，输出所生成的该最优化行动信息以使所述机床进行所述加工。

7.一种计算机可读介质，记录有用于使计算机作为根据权利要求1～5中的任一项所述的行动信息学习装置发挥功能的行动信息学习程序。