CN111954582A

CN111954582A - 机器学习装置、放电加工机及机器学习方法

Info

Publication number: CN111954582A
Application number: CN201880092284.8A
Authority: CN
Inventors: 千田慎吾
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2020-11-17
Anticipated expiration: 2038-04-17
Also published as: CN111954582B; JP6663538B1; JPWO2019202672A1; WO2019202672A1

Abstract

机器学习装置(100)对控制放电加工机(1)中的加工条件的控制参数进行学习。机器学习装置(100)具有：状态观测部(30)，其对表示放电加工中的加工状态的多个状态变量进行观测；以及学习部(40)，其基于多个状态变量而学习控制参数。

Description

机器学习装置、放电加工机及机器学习方法

技术领域

本发明涉及对控制放电加工的控制参数进行学习的机器学习装置、放电加工机及机器学习方法。

背景技术

为了在放电加工机中进行稳定的加工而存在自适应控制功能，其作为下述功能，即，进行电源电压波形及电源电流波形的变更、伺服动作即极间控制动作的变更这样的作为物理量表现的加工条件的自动变更。上述加工条件是由用户能够变更的几种至十几种加工参数决定的。对为了加工被加工物而施加的电压的大小或者加工电流脉冲的形状进行变更的参数、对被加工物和成为刀具的加工电极的相对距离进行调整的参数、改变加工电极的进给速度的参数等相当于加工参数。

这些加工参数的组合是使用代表性的加工形状、被加工材质及电极材质而通过实验作为适当的值的组而求出的，由此有时在放电加工机中预先设定有多个组，使得用户能够选择。但是，在放电加工机中设为加工的对象的形状是三维的复杂形状，另外基于如果通电则可加工的放电加工机的特性而被加工材质存在各种材质。因此，需要加工参数的优化，例如，在专利文献1中示出了利用由作业者输入的加工状态，自动设定加工参数。

专利文献1：日本特开平2－212041号公报

发明内容

但是，在专利文献1所记载的自动设定中，基于单一种类的加工状态，仅对用户也能够设定的加工参数的一部分进行调整。另外，基于加工参数，为了实现最终作为物理量而表现的加工条件，各种控制参数作为其背景而大量存在，没有进行这些控制参数的调整。

因此，在放电加工机的自适应控制中，要求能够作为物理量而取得更适当的加工条件的自适应控制。

本发明就是鉴于上述情况而提出的，其目的在于得到能够自动地学习在放电加工中更适当的加工条件的机器学习装置。

为了解决上述的课题，并达到目的，本发明的机器学习装置对控制放电加工机中的加工条件的控制参数进行学习。本发明的机器学习装置具有：状态观测部，其对表示放电加工中的加工状态的多个状态变量进行观测；以及学习部，其基于多个状态变量而学习控制参数。

发明的效果

本发明所涉及的机器学习装置具有下述效果，即，能够自动地学习在放电加工中更适当的加工条件。

附图说明

图1是表示本发明的实施方式1所涉及的放电加工机的结构的框图。

图2是将实施方式1所涉及的加工条件按照控制目的进行了分类的图。

图3是对与实施方式1所涉及的电压控制相关的加工条件的控制参数进行说明的图。

图4是表示与实施方式1所涉及的电压控制相关的加工条件和电流脉冲的发生周期之间的关系的图。

图5是对与实施方式1所涉及的脉冲控制相关的加工条件的控制参数进行说明的图。

图6是表示与实施方式1所涉及的脉冲控制相关的加工条件和电流脉冲的形状之间的关系的图。

图7是对与实施方式1所涉及的轴驱动控制相关的加工条件的控制参数进行说明的图。

图8是表示与实施方式1所涉及的轴驱动控制相关的加工条件和通过轴驱动进行的极间控制之间的关系的图。

图9是对实施方式1所涉及的电压脉冲及电流脉冲的状态进行说明的图。

图10是表示实施方式1所涉及的电压脉冲及电流脉冲稳定的情况的图。

图11是表示实施方式1所涉及的电压脉冲及电流脉冲不稳定的情况的图。

图12是表示实施方式1所涉及的理想性的平均电压值的分布的图。

图13是表示实施方式1所涉及的稳定的放电继续时的平均电压值的分布的图。

图14是表示实施方式1所涉及的不稳定的放电继续时的平均电压值的分布的图。

图15是对通过与实施方式1所涉及的电压控制相关的加工条件的控制参数的学习而实现的优化处理进行说明的流程图。

图16是对通过与实施方式1所涉及的脉冲控制相关的加工条件的控制参数的学习而实现的优化处理进行说明的流程图。

图17是对通过与实施方式1所涉及的轴驱动控制相关的加工条件的控制参数的学习而实现的优化处理进行说明的流程图。

图18是表示本发明的实施方式2所涉及的放电加工机的结构的框图。

图19是表示本发明的实施方式3所涉及的放电加工机的结构的框图。

图20是表示将实施方式1至3所涉及的机器学习装置的功能通过计算机系统实现的情况下的硬件结构的图。

具体实施方式

下面，基于附图对本发明的实施方式所涉及的机器学习装置、放电加工机及机器学习方法详细地进行说明。此外，本发明不受本实施方式限定。

实施方式1.

图1是表示本发明的实施方式1所涉及的放电加工机1的结构的框图。在放电加工机1中具有：加工电极2，其成为加工刀具；驱动装置4，其用于对加工电极2和被加工物3之间的距离进行控制；加工电源5，其用于在加工电极2和被加工物3之间发生放电；以及控制装置10，其对驱动装置4及加工电源5进行控制。被加工物3与加工电源5连接。驱动装置4能够对加工电极2及被加工物3的任一者或者两者进行驱动。

控制装置10具有：轴驱动控制部11，其对驱动装置4进行控制；加工电源控制部12，其对加工电源5进行控制；加工条件设定部15，其对加工条件设定值进行设定；控制参数保存部13，其保存与加工条件相对应的控制参数；以及初始参数设定部14，其对控制参数的初始值进行设定。此外，加工条件设定值是对加工条件进行指定的设定值。

控制参数是对加工条件设定值和加工条件之间的关系进行规定的参数，基于加工条件设定值及控制参数而决定通过具体的物理量表现的加工条件。因此，在加工电极2和被加工物3之间使放电发生而进行加工时的加工模式的加工条件，是基于由加工条件设定部15设定出的加工条件设定值和保存于控制参数保存部13的控制参数而决定的。即，放电加工机1中的通过物理量表现的加工条件由控制参数进行控制。用户能够对加工条件设定值进行设定，但无法设定或变更控制参数。轴驱动控制部11及加工电源控制部12基于从加工条件设定部15及控制参数保存部13赋予的信息，发出与上述加工条件的加工模式相对应的指令。如后面所述对控制参数进行变更，但最初设定于控制参数保存部13的控制参数的初始值由初始参数设定部14进行设定。在控制参数通过加工条件设定值和加工条件的对应表表现的情况下，控制参数的初始值成为初始值的对应表。

驱动装置4基于来自轴驱动控制部11的上述指令，对加工电极2和被加工物3的相对距离及相对速度进行控制。加工电源5基于来自加工电源控制部12的上述指令，在加工电极2和被加工物3之间施加电压，对放电时的电流波形进行控制。

控制装置10还具有输入输出部20、机器学习装置100、参数变更部50和学习结果存储部80。

输入输出部20是接收用户的输入，通过显示而支持用户的确认作业的输入输出接口。输入输出部20具有：加工条件输入部21，其接收用户希望使加工条件设定部15进行设定的加工条件设定值；以及显示部22，其用于进行由用户观测加工状态的确认作业。

机器学习装置100具有状态观测部30及学习部40。状态观测部30具有轴驱动识别部31、脉冲状态识别部32和加工状态观测部33。学习部40具有回报计算部47及函数更新部48，通过学习控制参数而进行优化。

回报计算部47具有：第1回报计算部41，其对电压控制所涉及的回报进行计算；第2回报计算部43，其对脉冲控制所涉及的回报进行计算；以及第3回报计算部45，其对轴驱动控制所涉及的回报进行计算。函数更新部48具有：第1函数更新部42，其对电压控制所涉及的函数进行更新；第2函数更新部44，其对脉冲控制所涉及的函数进行更新；以及第3函数更新部46，其对轴驱动控制所涉及的函数进行更新。

参数变更部50具有：第1控制参数变更部51，其对与电压控制相关的加工条件的控制参数进行变更；第2控制参数变更部52，其对与脉冲控制相关的加工条件的控制参数进行变更；以及第3控制参数变更部53，其对与轴驱动控制相关的加工条件的控制参数进行变更。参数变更部50基于由学习部40学习得到的结果，对由控制参数保存部13保存的控制参数进行变更。

学习结果存储部80对由机器学习装置100得到的学习结果进行存储。

如果放电加工机1开始放电加工，则基于由加工条件设定部15输出的加工条件设定值，轴驱动控制部11及加工电源控制部12进行指令，通过驱动装置4及加工电源5的动作，在加工电极2和被加工物3之间发生放电。

在放电加工正在进行的期间，驱动装置4按照轴驱动控制部11的指令，一边减小或增大加工电极2和被加工物3的相对距离，一边对放电发生的最佳的相对距离进行探索。与此时的驱动轴的位置及驱动轴的动作有关的信息由轴驱动识别部31取得，作为轴举动履历而记录于加工状态观测部33。

另外，在放电加工正在进行的期间，与上述的驱动装置4的动作同时地，加工电源5按照加工电源控制部12的指令，在加工电极2和被加工物3之间施加电压，使被指令的形状的电流波形的电流脉冲发生。加工电源控制部12基于来自加工条件设定部15的加工条件设定值，对加工电源5的电压进行控制，以使得在一定周期发生被指令的形状的电流波形的电流脉冲。但是，基于物理特性，不可能在放电加工中可靠地以一定周期使电流脉冲发生。另外，电流脉冲的形状还有时生成与理论值所示的电流波形不同的形状。该电流脉冲的发生周期及电流脉冲的形状、在此基础上成为脉冲发生源的施加电压的大小及施加周期、表示电压脉冲形状的电压波形的信息由脉冲状态识别部32取得，作为脉冲举动履历而记录于加工状态观测部33。

加工状态观测部33从脉冲举动履历及轴举动履历，取得一定期间中的电压值的分布、电流脉冲的发生周期、电流脉冲发生时的轴的位置信息、速度信息及加速度信息。加工状态观测部33将通过在当前使用的控制参数下执行的放电加工而得到的这些信息，与在控制参数保存部13中设定的当前使用的控制参数相关联地赋予给学习部40。

下面，对加工条件及加工条件和控制参数之间的关系详细地进行说明。图2是将实施方式1所涉及的加工条件按照控制目的进行了分类的图。图3是对与实施方式1所涉及的电压控制相关的加工条件的控制参数进行说明的图。图4是表示与实施方式1所涉及的电压控制相关的加工条件和电流脉冲的发生周期之间的关系的图。图5是对与实施方式1所涉及的脉冲控制相关的加工条件的控制参数进行说明的图。图6是表示与实施方式1所涉及的脉冲控制相关的加工条件和电流脉冲的形状之间的关系的图。图7是对与实施方式1所涉及的轴驱动控制相关的加工条件的控制参数进行说明的图。图8是表示与实施方式1所涉及的轴驱动控制相关的加工条件和通过轴驱动进行的极间控制之间的关系的图。

在图2中，(1)加工电路的类别、(2)电路辅助设定、(3)电流脉冲峰值、(4)电流脉冲长度、(5)脉冲休止时间、(6)极间间隙调整值、(7)抬升速度、(8)抬升高度、(9)最深值持续时间、(10)轴响应性、(11)期望电压值这样的加工条件相应于与电压控制相关的加工条件、与脉冲控制相关的加工条件或者与轴驱动控制相关的加工条件的情况下，在对应的栏标注黑圆点。与电压控制相关的加工条件与电流脉冲的发生周期存在关系，与脉冲控制相关的加工条件与电流脉冲的形状存在关系，与轴驱动控制相关的加工条件与极间控制存在关系。

图3、图5及图7与由加工条件设定部15对加工条件设定值进行设定的加工条件相对应地示出了由控制参数保存部13保存的控制参数。图2所示的各加工条件与电流脉冲的发生周期、电流脉冲的形状、极间控制相关，但有时重复地相关。因此，如果对相关的加工参数进行变更以使得对电流脉冲的发生周期、电流脉冲的形状或者极间控制的任意者进行变更，则有时还对其他方面造成影响。

另外，各加工条件通过加工条件设定值而指定缺口，多个加工条件表现为各加工条件所指定出的缺口的组合即缺口模式。缺口是指将表示加工条件的物理量离散地指定的刻痕。通常，几种或者几十种类的缺口模式预先登记于放电加工机1。各加工条件除了由加工条件设定值进行的缺口的选择以外，还具有无法由用户变更的控制参数。如先前说明所述，基于表示缺口的选择的加工条件设定值及控制参数而决定具体的物理量即加工条件。控制参数的具体例是缺口分割数及缺口分配值。缺口分割数是在该加工条件中能够选择的缺口的数量。缺口分配值是分配给各缺口的加工条件的物理量的值。但是，控制参数并不限定于这些。在将图2中举出的11种加工条件各自的控制参数作为变量的情况下，其变量的总数达到几十至几百。

图3说明了与电压控制相关的加工条件的控制参数。图4示出了与电压控制相关的加工条件即(4)电流脉冲长度、(5)脉冲休止时间、(6)极间间隙调整值、(9)最深值持续时间、(10)轴响应性及(11)期望电压值与电流脉冲的发生周期具有何种相关性的概略。(4)电流脉冲长度及(5)脉冲休止时间是通过图4的箭头示出的宽度所表示的加工条件、(6)极间抬升调整值、(9)最深值持续时间、(10)轴响应性及(11)期望电压值是与电流脉冲的发生周期相关的加工条件。

如果举出具体例，则(4)电流脉冲长度的控制参数是成为长度控制参数的缺口分割数及缺口分配值。相对于电流脉冲长度而设定有某控制参数即缺口分割数及缺口分配值。此时，相对于由加工条件设定值0指定的缺口而对应有电流脉冲长度＝2μsec、相对于由加工条件设定值1指定的缺口而对应有电流脉冲长度＝4μsec、相对于由加工条件设定值2指定的缺口而对应有电流脉冲长度＝8μsec这样的对应关系由上述控制参数进行规定。如果电流脉冲长度的控制参数变更，则上述对应关系变更，因此相对于相同加工条件设定值的电流脉冲长度变更。但是，即使控制参数进行了变更，通过变更后的缺口分配值，相对于全部加工条件设定值的加工条件的值也可以不变更。

图5说明了与脉冲控制相关的加工条件的控制参数。图6示出了与脉冲控制相关的加工条件即(1)加工电路的类别、(2)电路辅助设定、(3)电流脉冲峰值、(4)电流脉冲长度、(6)极间间隙调整值、(11)期望电压值与电流脉冲的形状具有何种相关性的概略。(1)如果加工电路的类别的电路调用参数变更，则加工电路变更，因此电流脉冲的形状变化。(2)电路辅助设定对电流脉冲的上升的倾斜度进行规定。(3)电流脉冲峰值对电流脉冲的峰值进行规定。(4)电流脉冲长度对电流脉冲的脉冲长度进行规定。(6)极间间隙调整值及(11)期望电压值是与电流脉冲的间隔相关的加工条件。

如果举出具体例，则(3)电流脉冲峰值的控制参数是成为峰值控制参数的缺口分割数及缺口分配值。相对于电流脉冲峰值I_p而设定有某控制参数即缺口分割数及缺口分配值。此时，相对于由加工条件设定值0指定的缺口而对应有I_p＝1A，相对于由加工条件设定值1指定的缺口而对应有I_p＝2A，相对于由加工条件设定值2指定的缺口而对应有I_p＝4A这样的对应关系是通过上述控制参数进行规定的。如果电流脉冲峰值I_p的控制参数变更则上述对应关系变更，因此相对于相同加工条件设定值的I_p的值变更。但是，即使控制参数进行了变更，通过变更后的缺口分配值，相对于全部加工条件设定值的加工条件的值也可以不变更。

图7说明了与轴驱动控制相关的加工条件的控制参数。图8示出了与轴驱动控制相关的加工条件即(6)极间间隙调整值、(7)抬升速度、(8)抬升高度、(9)最深值持续时间、(10)轴响应性及(11)期望电压值与轴驱动控制具有何种相关性的概略。(6)极间间隙调整值、(9)最深值持续时间、(10)轴响应性及(11)期望电压值是与加工电极2和被加工物3的接近动作相关的加工条件。(7)抬升速度、(8)抬升高度及(10)轴响应性是与包含有驱动轴的抬升动作的从被加工物3起的加工电极2的退避动作相关的加工条件。

接下来，对放电加工中的电压脉冲及电流脉冲的稳定或者不稳定进行说明。图9是对实施方式1所涉及的电压脉冲及电流脉冲的状态进行说明的图。图10是表示实施方式1所涉及的电压脉冲及电流脉冲稳定的情况的图。图11是表示实施方式1所涉及的电压脉冲及电流脉冲不稳定的情况的图。在图9～图11中，上方表示电压波形，下方表示电流波形。

如果对加工电极2和被加工物3之间施加电压，则在无法预期的定时发生绝缘破坏而流过电流。如果产生能够稳定地进行加工的理想性的电压及电流之间的关系，则产生与由晶体管电路等成型的具有一定的倾斜度的矩形波接近的电流脉冲。该电流脉冲在图9中示出为稳定的放电。在如上所述的理想性的电压及电流之间的关系不满足的情况下，成为电流脉冲的电流波形的形状不同于理想的图9的不稳定的放电，或者成为在加工中作为不有效的电流而在极间产生不同形状的电流波形的图9的异常放电。

在放电加工的控制中，作为用于控制极间的相对距离的一个指标，观测放电发生时的每一定时间的平均电压值而进行控制。在理想性的电压及电流之间的关系维持的情况下，维持而继续稳定的放电以使得如图10所示平均电压值成为理论值。但是，在图9的不稳定的放电或者异常放电重复的情况下，如图11所示平均电压值从理论值变动，不稳定的放电继续。在极间距离消除而加工电极2和被加工物3接触的情况下成为短路状态，在加工电极2和被加工物3的距离分离至不发生放电的距离为止的情况下成为开放状态，因此平均电压值相对于理论值的变动不是立即决定放电脉冲的稳定或者不稳定。另外，在理想性的条件下图10所示的稳定的电流脉冲的模式持续发生的情况下，存在直至发生绝缘破坏为止的被称为无负载电压时间的无法预期的时间间隔，因此放电发生的周期也不是一定的。因此，放电发生周期的增减是独立于加工的稳定性的指标。

图12是表示实施方式1所涉及的理想性的平均电压值的分布的图。图13是表示实施方式1所涉及的稳定的放电继续时的平均电压值的分布的图。图14是表示实施方式1所涉及的不稳定的放电继续时的平均电压值的分布的图。在图12～图14中，横轴表示放电发生时的每一定时间的平均电压值，纵轴表示每一定时间的脉冲数。

在理想性的电压及电流之间的关系维持的情况下，如图12所示，上述平均电压值成为在理论值中确定的脉冲数。在实际的加工中，基于物理现象，在表示设为目标的电压值的加工条件即期望电压值的周围分布平均电压值，并且还分布脉冲数。期望电压值无需理论值。在加工稳定而如图10所示稳定的放电继续的情况下，如图13所示平均电压值的波动也小，平均电压值在期望电压值中脉冲数变得最大。另外，在加工不稳定而如图11所示不稳定的放电继续的情况下，如图14所示平均电压值在期望电压值的周围分散而大幅地波动，并且脉冲数也发生波动。

脉冲状态识别部32基于一定期间中的放电发生时的电压的分布而进行分布的合格与否判定，对脉冲是稳定还是不稳定进行判定。作为一个例子，脉冲状态识别部32基于从加工电源控制部12得到的平均电压值、期望电压值及电压阈值之间的关系，对电压脉冲及电流脉冲是稳定还是不稳定进行判定。具体地说，脉冲状态识别部32基于加工电源控制部12的指令，在放电发生时的每一定的时间的平均电压值的从期望电压值起的偏差的绝对值大于电压阈值的情况下，使脉冲的不稳定信号发生，将使不稳定信号的发生次数在比上述一定的时间长的预先确定的期间之间累积得到的值作为第1状态的值而求出。并且，脉冲状态识别部32将从加工电源控制部12的指令得到的在预先确定的期间中发生的脉冲数作为第2状态的值而求出。上述预先确定的期间例如能够设为是被称为抬升动作的退避动作结束，进行用于使放电发生的极间位置控制，直至再次进行下一次抬升动作为止的动作时间。轴驱动识别部31将从轴驱动控制部11的指令得到的驱动装置4中的轴的进给量作为第3状态的值而求出。第3状态的值设定为轴的进给量在加工进行方向越大则成为越大的正值，轴的进给量在后退方向越大则成为越大的负值。第1状态的值、第2状态的值及第3状态的值各自是表示放电加工中的加工状态的状态变量，加工状态观测部33以将所取得的多个状态变量即第1状态的值、第2状态的值及第3状态的值通过分布图或者棒状图所涉及的直方图这样的形式能够由用户通过目视进行观测的方式在显示部22进行显示。如上所述，状态观测部30对多个状态变量即第1状态的值、第2状态的值及第3状态的值进行观测。而且，学习部40的第1回报计算部41、第2回报计算部43及第3回报计算部45基于由加工状态观测部33取得的第1状态的值、第2状态的值及第3状态的值对回报进行计算。

具有状态观测部30、学习部40及参数变更部50的机器学习装置100所使用的学习算法可以使用任意的算法。作为一个例子，对应用了强化学习(Reinforcement Learning)的情况进行说明。

强化学习是指某环境内的智能体即行动主体对当前的状态进行观测，决定应该采取的行动。智能体学习下述对策，即，通过选择行动而从环境得到回报，通过一系列的行动而得到最多回报。作为强化学习的代表性的方法，已知Q学习(Q－learning)或者TD学习(TD－learning)。例如在Q学习的情况下，行动价值函数Q(s，a)的一般性的更新式通过下面的算式(1)表示。行动价值函数Q(s，a)也被称为行动价值表。

【式1】

在算式(1)中，s_t表示时刻t下的状态，a_t表示时刻t下的行动。通过行动a_t，状态变为s_t+1。r_t+1表示通过其状态的变化而可得到的回报，γ表示折扣率，α表示学习系数。

Q学习中的通过算式(1)表示的更新式为如果时刻t+1下的最好的行动a的行动价值大于在时刻t执行的行动a_t的行动价值Q，则增大时刻t的行动价值Q，在相反的情况下，减小时刻t的行动价值Q。换言之，对行动价值函数Q(s_t，a_t)进行更新以使得时刻t下的行动a_t的行动价值Q接近时刻t+1下的最好的行动价值。由此，某环境中的最好的行动价值依次不断传导至其前的环境中的行动价值。

因此，在以下说明的机器学习装置100的动作中，如果将控制参数的变更行动设为时刻t下的行动a_t，将上述第1、第2及第3状态设为时刻t下的状态s_t，则能够理解为进行Q学习。

下面，对通过机器学习装置100实现的控制参数的优化动作进行说明。

图15是对通过与实施方式1所涉及的电压控制相关的加工条件的控制参数的学习而实现的优化处理进行说明的流程图。与电压控制相关的加工条件的控制参数是用于进行成为设定为加工条件的期望电压值的基础的电压控制的变量值，由此不仅包含电压的大小，还包含电压波形的形状、用于对放电进行检测的被称为基准电压的电压基准值。另外，通过与电压控制相关的加工条件的控制参数的优化，还进行下述处理，即，将设定为控制参数的无负载电压时间的电压及期望电压值的初始缺口模式变更为其他缺口模式等。

对电压控制所涉及的回报进行计算的第1回报计算部41，基于由脉冲状态识别部32求出的状态变量即第1状态的值及第2状态的值对回报的变化量进行计算。第1回报计算部41如果以在第1状态的值变小、第2状态的值变大的情况下增加回报的方式对回报的变化量进行计算，则并不限制于如何使用第1状态的值及第2状态的值而求出回报的变化量。具体地说，在第1状态的值变小的情况下增加回报，则第1状态的值变大的情况下减小回报。在此基础上，在第2状态的值变大的情况下增加回报，在第2状态的值变小的情况下减小回报。另外，也可以在不稳定的脉冲的数量减少、稳定的脉冲的数量增加的情况下使回报增大的基本的基准的基础上，在不稳定的脉冲减少、稳定的脉冲的数量也减少的情况下以回报减少的方式确定回报的计算方法。

基于由第1回报计算部41计算出的回报，第1函数更新部42对用于决定与电压控制相关的控制参数的函数即行动价值函数Q进行更新。基于更新后的行动价值函数Q，第1控制参数变更部51对与电压控制相关的加工条件的控制参数进行变更，以使得成为回报得到最多的控制参数。

基于以上情况，使用图15对图3所示的与电压控制相关的加工条件的6种控制参数的优化进行说明。图15设为在放电加工机1继续放电加工而执行的状况下所执行、变更的控制参数中设定有优先等级而进行说明，但也可以将6种控制参数同时地优化。

在执行图15的流程图之前，第1回报计算部41已经保存有电压控制所涉及的回报的初始值。如果回报的初始值为固定值，则不受限制而可以设为0。首先，将通过当前的加工条件及控制参数执行加工时的、加工电源控制部12的信息通过状态观测部30进行观测(步骤S101)。具体地说，状态观测部30取得加工中的加工电源控制部12的指令。而且，基于加工电源控制部12的指令，脉冲状态识别部32对第1状态的值及第2状态的值进行计算(步骤S102)。接下来，由脉冲状态识别部32求出的状态变量即第1状态的值及第2状态的值从加工状态观测部33赋予给第1回报计算部41。在这里，第1状态的值及第2状态的值与在控制参数保存部13中设定的当前使用的控制参数相关联地，从加工状态观测部33赋予给第1回报计算部41。

而且，第1回报计算部41将被赋予的第1状态的值与前次的第1状态的值相比较(步骤S103)。第1回报计算部41保存有前次赋予的第1状态的值，能够与本次赋予的第1状态的值相比较。在第1状态的值小于前次的第1状态的值的情况下(步骤S103：小)，第1回报计算部41增加回报(步骤S104)。即，在第1状态的值表示比前次稳定的状态的情况下，增加回报。在这里的回报的增加值是预先确定的值。在第1状态的值与前次的第1状态的值相同的情况下(步骤S103：相同)，第1回报计算部41不使回报变化(步骤S105)。在第1状态的值大于前次的第1状态的值的情况下(步骤S103：大)，第1回报计算部41减少回报(步骤S106)。即，在第1状态的值表示比前次不稳定的状态的情况下，减少回报。在这里的回报的减少值是预先确定的值。此外，在最初步骤S103执行时前次赋予的第1状态的值不存在，因此进入至步骤S105。

接下来，第1回报计算部41将赋予的第2状态的值与前次的第2状态的值相比较(步骤S107)。第1回报计算部41保存有前次赋予的第2状态的值，能够与本次赋予的第2状态的值相比较。在第2状态的值大于前次的第2状态的值的情况下(步骤S107：大)，第1回报计算部41增加回报(步骤S108)。即，在第2状态的值表示比前次稳定的状态的情况下，增加回报。在这里的回报的增加值是预先确定的值。在第2状态的值与前次的第2状态的值相同的情况下(步骤S107：相同)，第1回报计算部41不使回报变化(步骤S109)。在第2状态的值小于前次的第2状态的值的情况下(步骤S107：小)，第1回报计算部41减少回报(步骤S110)。即，在第2状态的值表示比前次不稳定的状态的情况下，减少回报。在这里的回报的减少值是预先确定的值。此外，最初步骤S107执行时前次赋予的第2状态的值不存在，因此进入至步骤S109。

而且，第1函数更新部42基于由第1回报计算部41计算出的回报，按照算式(1)对行动价值函数Q进行更新(步骤S111)。并且，第1函数更新部42在步骤S111中不进行更新，对行动价值函数Q是否收敛进行判定(步骤S112)。在判定为行动价值函数Q不收敛的情况下(步骤S112：No)，第1控制参数变更部51基于在步骤S111中更新后的行动价值函数Q，对与电压控制相关的加工条件的控制参数进行变更(步骤S113)。在步骤S113后返回至步骤S101。在判定为行动价值函数Q收敛的情况下(步骤S112：Yes)，学习部40通过第1控制参数变更部51，对与电压控制相关的加工条件的控制参数的全部是否变更进行判定(步骤S114)。在判定为与电压控制相关的加工条件的控制参数的全部没有变更的情况下(步骤S114：No)，在步骤S113中将成为第1控制参数变更部51的变更对象的控制参数替换为其他控制参数(步骤S115)。在步骤S115中成为新的变更对象的其他控制参数是指与电压控制相关的仍未变更的控制参数。在步骤S115后进入至步骤S113。

下面，对步骤S113中的与电压控制相关的加工条件的控制参数的变更详细地进行说明。如上所述，在步骤S113中进行变更的图3所示的与电压控制相关的加工条件的6种控制参数中，确定有成为变更对象的优先等级。首先，在进入至步骤S113时通过第1控制参数变更部51变更的是期望电压值的控制参数即电压控制参数。而且，在步骤S112中每次判定为行动价值函数Q收敛时，成为第1控制参数变更部51的变更对象的控制参数按照轴响应性的控制参数即GAIN控制参数、脉冲休止时间的控制参数即长度控制参数、极间间隙调整值的控制参数即间隙控制参数、最深值持续时间的控制参数即长度控制参数、电流脉冲长度的控制参数即长度控制参数的顺序在步骤S115中被替换。

在学习部40判定为行动价值函数Q收敛，与电压控制相关的加工条件的控制参数的全部发生了变更的情况下(步骤S114：Yes)，通过与电压控制相关的加工条件的控制参数的学习而实现的优化处理结束，学习结果存储于学习结果存储部80(步骤S116)。在学习结果中，在通过步骤S113变更而最终决定的各控制参数的基础上，还包含各控制参数的变更过程的值、及与控制参数相对应的第1状态的值及第2状态的值。在学习结果存储部80中存储的学习结果能够利用于控制参数的变更前后的合格与否判断。另外，如上述所示最终地决定的控制参数，作为在上述学习中回报得到最多、被赋予的加工条件设定值中最佳的控制参数而保存于控制参数保存部13。通过学习将与电压控制相关的加工条件的控制参数进行优化，由此防止在从加工开始至结束为止之间产生不稳定信号，能够使稳定信号的脉冲的数量最大化。此外，如上所述，在将与电压控制相关的加工条件的6种控制参数同时地优化的情况下，在步骤S113中，第1控制参数变更部51基于在步骤S111中更新后的行动价值函数Q，将6种控制参数同时地变更。在该情况下，不需要步骤S114及S115，在步骤S112中判定为行动价值函数Q收敛的情况下(步骤S112：Yes)，只要立即进入至步骤S116即可。

图16是对通过与实施方式1所涉及的脉冲控制相关的加工条件的控制参数的学习而实现的优化处理进行说明的流程图。与脉冲控制相关的加工条件的控制参数是脉冲的倾斜度、成为脉冲发生周期的理论值的基础的异常放电检测阈值等用于进行电流脉冲控制的变量值。在与脉冲控制相关的加工条件的控制参数中，不仅包含电流脉冲的大小及宽度，还包含电流波形的形状、用于对用于使电流值接近理想性的形状的加工电极2和被加工物3的相对距离进行调整的极间间隙的调整值。另外，通过与脉冲控制相关的加工条件的控制参数的优化，还进行将作为控制参数而设定的电流的大小及宽度的初始缺口模式变更为其他缺口模式等的处理。

对脉冲控制所涉及的回报进行计算的第2回报计算部43，基于由脉冲状态识别部32求出的状态变量即第1状态的值及第2状态的值对回报进行计算。第2回报计算部43的回报的计算方法与第1回报计算部41相同。

基于由第2回报计算部43计算出的回报，第2函数更新部44对用于决定与脉冲控制相关的控制参数的函数即行动价值函数Q进行更新。基于更新后的行动价值函数Q，第2控制参数变更部52对与脉冲控制相关的加工条件的控制参数进行变更，以使得成为回报得到最多的控制参数。

基于以上情况，使用图16对图5所示的与脉冲控制相关的加工条件的6种控制参数的优化进行说明。图16设为在放电加工机1继续放电加工而执行的状况下所执行、变更的控制参数中设定有优先等级而进行说明，但也可以将6种控制参数同时地优化。

在执行图16的流程图之前，第2回报计算部43保存有脉冲控制所涉及的回报的初始值。如果回报的初始值为固定值，则不受限制而可以设为0。首先，将通过当前的加工条件及控制参数执行加工时的、加工电源控制部12的信息通过状态观测部30进行观测(步骤S201)。具体地说，状态观测部30取得加工中的加工电源控制部12的指令。而且，基于加工电源控制部12的指令，脉冲状态识别部32对第1状态的值及第2状态的值进行计算(步骤S202)。接下来，由脉冲状态识别部32求出的状态变量即第1状态的值及第2状态的值从加工状态观测部33赋予给第2回报计算部43。在这里，第1状态的值及第2状态的值与在控制参数保存部13中设定的当前使用的控制参数相关联地从加工状态观测部33赋予给第2回报计算部43。

而且，第2回报计算部43将被赋予的第1状态的值与前次的第1状态的值相比较(步骤S203)。第2回报计算部43保存有前次赋予的第1状态的值，能够与本次赋予的第1状态的值相比较。在第1状态的值小于前次的第1状态的值的情况下(步骤S203：小)，第2回报计算部43增加回报(步骤S204)。即，在第1状态的值表示比前次稳定的状态的情况下，增加回报。在这里的回报的增加值是预先确定的值。在第1状态的值与前次的第1状态的值相同的情况下(步骤S203：相同)，第2回报计算部43不使回报变化(步骤S205)。在第1状态的值大于前次的第1状态的值的情况下(步骤S203：大)，第2回报计算部43减少回报(步骤S206)。在这里的回报的减少值是预先确定的值。此外，在最初步骤S203执行时前次赋予的第1状态的值不存在，因此进入至步骤S205。

接下来，第2回报计算部43将赋予的第2状态的值与前次的第2状态的值相比较(步骤S207)。第2回报计算部43保存有前次赋予的第2状态的值，能够与本次赋予的第2状态的值相比较。在第2状态的值大于前次的第2状态的值的情况下(步骤S207：大)，第2回报计算部43增加回报(步骤S208)。在这里的回报的增加值是预先确定的值。在第2状态的值与前次的第2状态的值相同的情况下(步骤S207：相同)，第2回报计算部43不使回报变化(步骤S209)。在第2状态的值小于前次的第2状态的值的情况下(步骤S207：小)，第2回报计算部43减少回报(步骤S210)。在这里的回报的减少值是预先确定的值。此外，最初步骤S207执行时前次赋予的第2状态的值不存在，因此进入至步骤S209。

而且，第2函数更新部44基于由第2回报计算部43计算出的回报，按照算式(1)对行动价值函数Q进行更新(步骤S211)。并且，第2函数更新部44在步骤S211中不进行更新，对行动价值函数Q是否收敛进行判定(步骤S212)。在判定为行动价值函数Q不收敛的情况下(步骤S212：No)，第2控制参数变更部52基于在步骤S211中更新后的行动价值函数Q，对与脉冲控制相关的加工条件的控制参数进行变更(步骤S213)。在步骤S213后返回至步骤S201。在判定为行动价值函数Q收敛的情况下(步骤S212：Yes)，学习部40通过第2控制参数变更部52，对与脉冲控制相关的加工条件的控制参数的全部是否变更进行判定(步骤S214)。在判定为与脉冲控制相关的加工条件的控制参数的全部没有变更的情况下(步骤S214：No)，在步骤S213中将成为第2控制参数变更部52的变更对象的控制参数替换为其他控制参数(步骤S215)。在步骤S215中成为新的变更对象的其他控制参数是指与脉冲控制相关的仍未变更的控制参数。在步骤S215后进入至步骤S213。

下面，对步骤S213中的与脉冲控制相关的加工条件的控制参数的变更详细地进行说明。如上所述，在步骤S213中进行变更的图5所示的与脉冲控制相关的加工条件的6种控制参数中确定有成为变更对象的优先等级。首先，在进入至步骤S213时通过第2控制参数变更部52变更的是期望电压值的控制参数即电压控制参数。而且，在步骤S212中每次判定为行动价值函数Q收敛时，成为第2控制参数变更部52的变更对象的控制参数按照极间间隙调整值的控制参数即间隙控制参数、电路辅助设定的控制参数即脉冲倾斜度控制参数、电流脉冲长度的控制参数即长度控制参数、电流脉冲峰值的控制参数即峰值控制参数、加工电路的类别的控制参数即电路调用参数的顺序在步骤S215中被替换。

在学习部40判定为行动价值函数Q收敛，与脉冲控制相关的加工条件的控制参数的全部发生了变更的情况下(步骤S214：Yes)，通过与脉冲控制相关的加工条件的控制参数的学习而实现的优化处理结束，学习结果存储于学习结果存储部80(步骤S216)。在学习结果中，在通过步骤S213变更而最终决定的各控制参数的基础上，还包含各控制参数的变更过程的值、及与控制参数相对应的第1状态的值及第2状态的值。在学习结果存储部80中存储的学习结果能够利用于控制参数的变更前后的合格与否判断。另外，如上述所示最终地决定的控制参数，作为在上述学习中回报得到最多、被赋予的加工条件设定值中最佳的控制参数而保存于控制参数保存部13。通过学习将与脉冲控制相关的加工条件的控制参数进行优化，由此防止在从加工开始至结束为止之间产生不稳定信号，能够使稳定信号的脉冲的数量最大化。此外，如上所述，在将与脉冲控制相关的加工条件的6种控制参数同时地优化的情况下，在步骤S213中，第2控制参数变更部52基于在步骤S211中更新后的行动价值函数Q，将6种控制参数同时地变更。在该情况下，不需要步骤S214及S215，在步骤S212中判定为行动价值函数Q收敛的情况下(步骤S212：Yes)，只要立即进入至步骤S216即可。

图17是对通过与实施方式1所涉及的轴驱动控制相关的加工条件的控制参数的学习而实现的优化处理进行说明的流程图。与轴驱动控制相关的加工条件的控制参数也被称为极间控制参数，是使加工电极2和被加工物3接近时的减速距离、生成被称为抬升动作的瞬时退避行动的举动的速度及加速度的参数等用于进行放电加工机1的轴驱动举动的变更的变量值。在极间控制参数的变更中，不仅包含用于在极间稳定地发生放电的轴响应性的变更，还包含用于清扫极间的抬升动作的变更、用于防止由轴的过度响应引起的固有频率振动的施振的参数的变更。

对轴驱动控制所涉及的回报进行计算的第3回报计算部45，基于由脉冲状态识别部32求出的状态变量即第2状态的值及由轴驱动识别部31求出的状态变量即第3状态的值对回报进行计算。第3回报计算部45如果在第2状态的值变大、第3状态的值变大的情况下以增加回报的方式对回报的变化量进行计算，则如何使用第2状态的值及第3状态的值而求出回报的变化量不受限制。具体地说，在第2状态的值变大的情况下增加回报，在第2状态的值变小的情况下减少回报。在此基础上，在第3状态的值变大的情况下增加回报，在第3状态的值变小的情况下减少回报。另外，如果即使轴的进给量没有变化，放电脉冲的数量也增大，则使得回报增大，但也可以确定下述回报的计算方法，即，即使轴的进给量在加工进行方向变大，放电脉冲的数量也减少的情况下使得回报减少。

基于由第3回报计算部45计算出的回报，第3函数更新部46对用于决定与轴驱动控制相关的控制参数的函数即行动价值函数Q进行更新。基于更新后的行动价值函数Q，第3控制参数变更部53对与轴驱动控制相关的加工条件的控制参数进行变更，以使得成为回报得到最多的控制参数。

基于以上情况，使用图17对图7所示的与轴驱动控制相关的加工条件的5种控制参数的优化进行说明。图17设为在放电加工机1继续放电加工而执行的状况下所执行、变更的控制参数中设定有优先等级而进行说明，但也可以将5种控制参数同时地优化

在执行图17的流程图之前，第3回报计算部45已经保存有轴驱动控制所涉及的回报的初始值。如果回报的初始值为固定值，则不受限制而可以设为0。首先，将通过当前的加工条件及控制参数执行加工时的、加工电源控制部12的信息通过状态观测部30进行观测(步骤S301)。具体地说，状态观测部30取得加工中的加工电源控制部12的指令。而且，基于加工电源控制部12的指令，脉冲状态识别部32对第2状态的值进行计算(步骤S303)。另外，将通过当前的加工条件及控制参数执行加工时的、轴驱动控制部11的信息通过状态观测部30进行观测(步骤S302)。具体地说，状态观测部30取得加工中的轴驱动控制部11的指令。而且，基于轴驱动控制部11的指令，轴驱动识别部31对第3状态的值进行计算(步骤S304)。接下来，由脉冲状态识别部32求出的第2状态的值及由轴驱动识别部31求出的第3状态的值从加工状态观测部33赋予给第3回报计算部45。在这里，第2状态的值及第3状态的值与在控制参数保存部13中设定的当前使用的控制参数相关联地，从加工状态观测部33赋予给第3回报计算部45。

而且，第3回报计算部45将被赋予的第2状态的值与前次的第2状态的值相比较(步骤S305)。第3回报计算部45保存有前次赋予的第2状态的值，能够与本次赋予的第2状态的值相比较。在第2状态的值大于前次的第2状态的值的情况下(步骤S305：大)，第3回报计算部45增加回报(步骤S306)。在这里的回报的增加值是预先确定的值。在第2状态的值与前次的第2状态的值相同的情况下(步骤S305：相同)，第3回报计算部45不使回报变化(步骤S307)。在第2状态的值小于前次的第2状态的值的情况下(步骤S305：小)，第3回报计算部45减少回报(步骤S308)。在这里的回报的减少值是预先确定的值。此外，在最初步骤S305执行时前次赋予的第2状态的值不存在，因此进入至步骤S307。

接下来，第3回报计算部45将赋予的第3状态的值与前次的第3状态的值相比较(步骤S309)。第3回报计算部45保存有前次赋予的第3状态的值，能够与本次赋予的第3状态的值相比较。在第3状态的值大于前次的第3状态的值的情况下(步骤S309：大)，第3回报计算部45增加回报(步骤S310)。即，在第3状态的值表示比前次稳定的状态的情况下，增加回报。在这里的回报的增加值是预先确定的值。在第3状态的值与前次的第3状态的值相同的情况下(步骤S309：相同)，第3回报计算部45不使回报变化(步骤S311)。在第3状态的值小于前次的第3状态的值的情况下(步骤S309：小)，第3回报计算部45减少回报(步骤S312)。即，在第3状态的值表示比前次不稳定的状态的情况下，减少回报。在这里的回报的减少值是预先确定的值。此外，在最初步骤S309执行时前次赋予的第3状态的值不存在，因此进入至步骤S311。

而且，第3函数更新部46基于由第3回报计算部45计算出的回报，按照算式(1)对行动价值函数Q进行更新(步骤S313)。并且，第3函数更新部46在步骤S313中不进行更新，对行动价值函数Q是否收敛进行判定(步骤S314)。在判定为行动价值函数Q不收敛的情况下(步骤S314：No)，第3控制参数变更部53基于在步骤S313中更新后的行动价值函数Q，对与轴驱动控制相关的加工条件的控制参数进行变更(步骤S315)。在步骤S315后返回至步骤S301及S302。在判定为行动价值函数Q收敛的情况下(步骤S314：Yes)，学习部40通过第3控制参数变更部53，对与轴驱动控制相关的加工条件的控制参数的全部是否变更进行判定(步骤S316)。在判定为与轴驱动控制相关的加工条件的控制参数的全部没有变更的情况下(步骤S316：No)，在步骤S315中将成为第3控制参数变更部53的变更对象的控制参数替换为其他控制参数(步骤S317)。在步骤S317中成为新的变更对象的其他控制参数是指与轴驱动控制相关的仍未变更的控制参数。在步骤S317后进入至步骤S315。

下面，对步骤S315中的与轴驱动控制相关的加工条件的控制参数的变更详细地进行说明。如上所述，在步骤S315中进行变更的图7所示的与轴驱动控制相关的加工条件的5种控制参数中确定有成为变更对象的优先等级。首先，在进入至步骤S315时通过第3控制参数变更部53变更的是期望电压值的控制参数即电压控制参数。而且，在步骤S314中每次判定为行动价值函数Q收敛时，成为第3控制参数变更部53的变更对象的控制参数按照轴响应性的控制参数即GAIN控制参数、最深值持续时间的控制参数即长度控制参数、抬升速度及抬升高度的控制参数即抬升控制参数、极间间隙调整值的控制参数即间隙控制参数的顺序在步骤S317中被替换。

在学习部40判定为行动价值函数Q收敛，与轴驱动控制相关的加工条件的控制参数的全部发生了变更的情况下(步骤S316：Yes)，通过与轴驱动控制相关的加工条件的控制参数的学习而实现的优化处理结束，学习结果存储于学习结果存储部80(步骤S318)。在学习结果中，在通过步骤S315变更而最终决定的各控制参数的基础上，还包含各控制参数的变更过程的值、及与控制参数相对应的第2状态的值及第3状态的值。在学习结果存储部80中存储的学习结果能够利用于控制参数的变更前后的合格与否判断。另外，如上述所示最终地决定的控制参数，作为在上述学习中回报得到最多、被赋予的加工条件设定值中最佳的控制参数而保存于控制参数保存部13。通过学习将与轴驱动控制相关的加工条件的控制参数进行优化，由此被称为抬升动作的退避动作结束，进行用于发生放电的极间位置控制，使直至再次进行下一个抬升动作为止这样的1次动作单位中的脉冲数增大，将每次观测时的轴的进给量在加工进行方向增大而能够促进加工的进行。此外，如上所述，在将与轴驱动控制相关的加工条件的5种控制参数同时地优化的情况下，在步骤S315中，第3控制参数变更部53基于在步骤S313中更新后的行动价值函数Q，将5种控制参数同时地变更。在该情况下，不需要步骤S316及S317，在步骤S314中判定为行动价值函数Q收敛的情况下(步骤S314：Yes)，只要立即进入至步骤S318即可。

另外，在上述图15至图17的说明中，基于更新后的行动价值函数Q而变更的控制参数的变更的方法，只要是以通过现状的状态s_t下的行动价值函数Q(s_t，a_t)求出的行动价值Q成为最大的方式求出行动a_t即控制参数的做法即可，并不特别受到限定。

此外，同一加工条件的控制参数相同，因此在将图15至图17的流程图并列地执行的情况下，同一控制参数接收各个流程图所涉及的变更。

图15至图17的流程图所涉及的控制参数的优化的动作是开始放电加工机1的加工动作，从发生了放电的阶段起进行，继续至放电加工结束为止。即，与加工的开始同时地通过状态观测部30对加工的状态进行观测，直至加工结束为止通过学习部40及参数变更部50进行最佳的控制参数的探索。即，通过机器学习装置100将图15至图17的流程图并列地执行，直至图15至图17的全部结束条件被满足为止继续控制参数的更新。在全部结束条件满足的情况下结束控制参数的变更。

通过机器学习装置100进行的上述学习行动，从放电加工开始至加工结束为止持续地进行。基于上述第1、第2及第3状态而求出学习行动中的回报，进行控制参数的变更行动。通过该学习行动，在加工结束后得到的最佳的控制参数的行动价值Q，高于最初设定的控制参数的行动价值Q。通过实施方式1所涉及的放电加工机1提高行动价值Q，由此得到下述效果，即，直至加工结束为止所花费的时间缩短、及通过稳定的放电进行加工而得到的被加工物的加工精度及加工面品质提高。

在现有的自适应控制中，按照使得加工稳定而决定的规则进行了加工条件设定值的控制，但没有进行将控制参数变更的自适应控制。与此相对，根据机器学习装置100，与加工物形状及加工材质相应地一边实际上执行放电加工，一边执行对控制参数进行调整的优化学习，因此能够作为物理量而更适当地自动学习稳定的加工条件。即，根据机器学习装置100，在被加工物的形状、电极材质、电极形状这样的难以预先设想的自适应控制使用条件下，也不会对自适应控制的应用范围进行限定就能够进行控制参数的优化，能够提高加工的稳定性，实现加工速度及加工精度的改善。

实施方式2.

图18是表示本发明的实施方式2所涉及的放电加工机1A的结构的框图。放电加工机1A在实施方式1所涉及的放电加工机1中，将用于进行利用了加工结果的追加学习的结构即加工结果输入部23追加至输入输出部20。

在实施方式1中，对进行某特定的加工时的控制参数的学习行动进行了说明，但在实施方式2中，设为对相同的被加工物3的材料及相同的加工条件设定值预先进行了一次加工。作为进行了一次加工的结果，得到被加工物3加工后的表面粗糙度和加工电极2加工后的电极消耗量即消耗重量或者消耗长度。

加工结果输入部23接收由用户输入的被加工物3加工后的表面粗糙度及加工电极2加工后的电极消耗量这样的加工结果。加工结果的输入的形式可以是显示部22对能够选择的选择选项进行显示，加工结果输入部23接收用户的选择结果的形式。另外，也可以是加工结果输入部23对与由用户输入的被加工物3加工后的表面粗糙度及加工电极2加工后的电极消耗量有关的数值数据进行接收的形式，不受限定。另外，加工结果输入部23接收到的被加工物3加工后的表面粗糙度及加工电极2加工后的电极消耗量的合格与否评价的方法也是设计事项，不特别受到限定。另外，也可以将被加工物3加工后的表面粗糙度及加工电极2加工后的电极消耗量的合格与否本身由加工结果输入部23进行接收。

在通过与进行了一次的加工相同的加工条件设定而再次执行加工时，通过使用由加工结果输入部23接收到的以前的加工中的加工结果，从而能够对在图15至图17中说明的控制参数的变更中的变更量进行限制的追加或者解除。基于由加工结果输入部23接收到的加工结果，加工状态观测部33等使参数变更部50执行控制参数的变更中的变更量的限制的追加或者解除。

具体地说，在加工结果输入部23接收到的被加工物3加工后的表面粗糙度的合格与否评价差的情况下，向对加工面品质造成影响的控制参数的变更施加限制。作为一个例子，参数变更部50对长度控制参数的变更宽度施加限制，以使得不将电流脉冲长度的控制参数即长度控制参数变更为大于或等于一定值。

另外，在判断为由加工结果输入部23接收到的加工电极2加工后的电极消耗量虽然少但仍富裕的情况下，参数变更部50解除对电极消耗量造成影响的控制参数的变更的限制。作为一个例子，增加电路辅助设定的脉冲倾斜度控制参数的变更宽度，解除变更的限制。相反地在电极消耗量大的情况下，参数变更部50也能够进一步对控制参数的变更施加限制。

根据实施方式2所涉及的放电加工机1A，通过接收进行了一次加工而得到的加工结果，从而能够在相同的被加工物3的材料及相同的加工条件设定值中，使控制参数的变更的限制依赖于加工结果。由此，在通过实施方式1得到的效果的基础上，得到加工后的加工面的面品质提高这样的精度提高效果、电极消耗量减少这样的成本削减效果。

实施方式3.

图19是表示本发明的实施方式3所涉及的放电加工机1B的结构的框图。放电加工机1B在实施方式2所涉及的放电加工机1A中追加了通信部60。通信部60具有：学习内容文件化部61，其将在学习结果存储部80中存储的学习结果变换为能够发送的学习结果数据；接收部62，其从外部接收学习结果数据；以及发送部63，其将学习结果数据发送至外部。接收部62及发送部63与存在于放电加工机1B的外部的云服务器300连接而能够通信。

云服务器300还与具有与放电加工机1B的控制装置10相同的学习功能的放电加工机301～303连接。因此，放电加工机1B能够经由通信部60与其他放电加工机即放电加工机301～303进行通信。云服务器300不仅对放电加工机1B的学习结果数据，还对放电加工机301～303的学习结果数据进行存储。关于云服务器300和放电加工机1B、301～303的通信方式，只要利用公知的技术即可，并不特别受到限制。

在如实施方式1及2中说明那样的控制参数的优化学习已经执行的情况下，学习内容文件化部61能够将在学习结果存储部80中存储的学习结果变换为存在于外部的放电加工机301～303能够利用的形式的学习结果数据。学习结果数据只要是与控制装置10相同的控制装置能够利用的数据形式即可，其形式不受限定。

由学习内容文件化部61创建的学习结果数据能够经由发送部63而储存于云服务器300。在云服务器300中储存的学习结果数据相对于放电加工机301～303自动或者主动地发送，放电加工机301～303是否利用该学习结果数据能够通过放电加工机301～303的用户的判断而决定。

通过将该学习结果数据导入至在放电加工机301～303中存在的机器学习装置，从而在放电加工机301～303中也能够同样地利用机器学习装置100学习到的内容。

另外，相反地，在放电加工机301～303中通过学习而创建的学习结果数据也能够经由云服务器300、接收部62而由控制装置10利用。此时，经由接收部62由放电加工机301～303的控制装置学习到的内容或者观测的状态能够在显示部22进行显示。

由此，能够将存在于远程的外部的放电加工机301～303的控制装置的学习结果由放电加工机1B利用，或将放电加工机301～303的加工状态由放电加工机1B进行观测。另外，也能够使放电加工机1B的学习结果由同一规格的放电加工机301～303利用。因此，不仅是1个放电加工机单体的调整，也能够是同一规格的放电加工机的数量越增多，则越高效地执行针对同一规格的多个放电加工机的机械性能的提高。

实施方式1至3所涉及的机器学习装置100是通过个人计算机或者通用计算机这样的计算机系统而实现的。图20是表示将实施方式1至3所涉及的机器学习装置100的功能通过计算机系统实现的情况下的硬件结构的图。在将机器学习装置100的功能通过计算机系统实现的情况下，机器学习装置100的功能如图20所示通过CPU(Central ProcessingUnit)201、存储器202、存储装置203、显示装置204及输入装置205而实现。机器学习装置100执行的功能是通过软件、固件或者软件和固件的组合而实现的。软件或者固件作为程序记述而储存于存储装置203。CPU 201将在存储装置203中存储的软件或者固件读出至存储器202而执行，由此实现机器学习装置100的功能。即，计算机系统具有存储装置203，该存储装置203在机器学习装置100的功能通过CPU 201执行时，用于对将实施方式1至3所涉及的机器学习方法实施的程序步最终得以执行的程序进行储存。另外，这些程序也可以说是使机器学习装置100的功能所实现的处理由计算机执行。存储器202相当于RAM(Random AccessMemory)这样的易失性的存储区域。存储装置203相当于ROM(Read Only Memory)、闪存这样的非易失性或者易失性的半导体存储器、磁盘。显示装置204的具体例是监视器、显示器。输入装置205的具体例是键盘、鼠标、触摸面板。

以上的实施方式所示的结构，表示本发明的内容的一个例子，也能够与其他公知技术进行组合，在不脱离本发明的主旨的范围，也能够对结构的一部分进行省略、变更。

标号的说明

1、1A、1B、301～303放电加工机，2加工电极，3被加工物，4驱动装置，5加工电源，10控制装置，11轴驱动控制部，12加工电源控制部，13控制参数保存部，14初始参数设定部，15加工条件设定部，20输入输出部，21加工条件输入部，22显示部，23加工结果输入部，30状态观测部，31轴驱动识别部，32脉冲状态识别部，33加工状态观测部，40学习部，41第1回报计算部，42第1函数更新部，43第2回报计算部，44第2函数更新部，45第3回报计算部，46第3函数更新部，47回报计算部，48函数更新部，50参数变更部，51第1控制参数变更部，52第2控制参数变更部，53第3控制参数变更部，60通信部，61学习内容文件化部，62接收部，63发送部，80学习结果存储部，100机器学习装置，201CPU，202存储器，203存储装置，204显示装置，205输入装置，300云服务器。

Claims

1.一种机器学习装置，其对控制放电加工机中的加工条件的控制参数进行学习，

该机器学习装置的特征在于，具有：

状态观测部，其对表示放电加工中的加工状态的多个状态变量进行观测；以及

学习部，其基于多个所述状态变量而学习所述控制参数。

2.根据权利要求1所述的机器学习装置，其特征在于，

所述状态观测部将第1状态的值、第2状态的值及第3状态的值作为多个所述状态变量进行观测，该第1状态的值是将脉冲的不稳定信号的发生次数在预先确定的期间之间累积得到的值，该第2状态的值是在所述预先确定的期间中发生的脉冲数，该第3状态的值是驱动装置中的轴的进给量。

3.根据权利要求2所述的机器学习装置，其特征在于，

所述状态观测部具有：

脉冲状态识别部，其基于对加工电源进行控制的加工电源控制部的指令而求出所述第1状态的值及所述第2状态的值；以及

轴驱动识别部，其基于对所述驱动装置进行控制的轴驱动控制部的指令而求出所述第3状态的值，所述驱动装置用于对加工电极和被加工物之间的距离进行控制。

4.根据权利要求2或3所述的机器学习装置，其特征在于，

所述学习部具有：

回报计算部，其基于所述状态变量而计算回报；以及

函数更新部，其基于所述回报而对用于决定所述控制参数的函数进行更新。

5.根据权利要求4所述的机器学习装置，其特征在于，

所述回报计算部在所述状态变量表示比前次稳定的状态的情况下增加所述回报，在所述状态变量表示比前次不稳定的状态的情况下减少所述回报。

6.根据权利要求4或5所述的机器学习装置，其特征在于，

所述回报计算部具有：第1回报计算部，其对电压控制所涉及的回报进行计算；第2回报计算部，其对脉冲控制所涉及的回报进行计算；以及第3回报计算部，其对轴驱动控制所涉及的回报进行计算，

所述函数更新部具有：第1函数更新部，其对电压控制所涉及的函数进行更新；第2函数更新部，其对脉冲控制所涉及的函数进行更新；以及第3函数更新部，其对轴驱动控制所涉及的函数进行更新。

7.根据权利要求6所述的机器学习装置，其特征在于，

所述第1回报计算部在所述第1状态的值小于前次的情况下增加所述回报，在所述第1状态的值大于前次的情况下减少所述回报。

8.根据权利要求6所述的机器学习装置，其特征在于，

所述第1回报计算部在所述第2状态的值大于前次的情况下增加所述回报，在所述第2状态的值小于前次的情况下减少所述回报。

9.根据权利要求6所述的机器学习装置，其特征在于，

所述第2回报计算部在所述第1状态的值小于前次的情况下增加所述回报，在所述第1状态的值大于前次的情况下减少所述回报。

10.根据权利要求6所述的机器学习装置，其特征在于，

所述第2回报计算部在所述第2状态的值大于前次的情况下增加所述回报，在所述第2状态的值小于前次的情况下减少所述回报。

11.根据权利要求6所述的机器学习装置，其特征在于，

所述第3回报计算部在所述第2状态的值大于前次的情况下增加所述回报，在所述第2状态的值小于前次的情况下减少所述回报。

12.根据权利要求6所述的机器学习装置，其特征在于，

所述第3回报计算部在所述第3状态的值大于前次的情况下增加所述回报，在所述第3状态的值小于前次的情况下减少所述回报。

13.一种放电加工机，其特征在于，具有：

权利要求1至12中任一项所述的机器学习装置；

加工条件设定部，其设定加工条件设定值；

控制参数保存部，其保存所述控制参数；

加工电源控制部，其基于所述加工条件设定值及所述控制参数而控制加工电源；

轴驱动控制部，其基于所述加工条件设定值及所述控制参数而对用于控制加工电极和被加工物之间的距离的驱动装置进行控制；以及

参数变更部，其基于由所述学习部学习得到的结果，对由所述控制参数保存部保存的所述控制参数进行变更。

14.根据权利要求13所述的放电加工机，其特征在于，

还具有加工结果输入部，该加工结果输入部接收加工结果，

所述参数变更部基于所述加工结果而针对所述控制参数的变更进行限制的追加或者解除。

15.根据权利要求13或14所述的放电加工机，其特征在于，

还具有通信部，该通信部能够与其他放电加工机进行通信。

16.根据权利要求13至15中任一项所述的放电加工机，其特征在于，

还具有学习结果存储部，该学习结果存储部对由所述参数变更部变更后的所述控制参数进行存储。

17.一种机器学习方法，其是对控制放电加工机中的加工条件的控制参数进行学习的机器学习装置的机器学习方法，其特征在于，

具有下述步骤：

求出表示放电加工中的加工状态的多个状态变量；以及

基于多个所述状态变量而学习所述控制参数。