CN110501973A

CN110501973A - 模拟装置

Info

Publication number: CN110501973A
Application number: CN201910414370.2A
Authority: CN
Inventors: 内田智士
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2018-05-17
Filing date: 2019-05-17
Publication date: 2019-11-26
Anticipated expiration: 2039-05-17
Also published as: US11897066B2; US20190351520A1; JP6813532B2; CN110501973B; DE102019112211A1; JP2019200661A

Abstract

本发明提供一种模拟装置，模拟装置具备学习工件加工的加工路径的变更的机器学习装置。该机器学习装置观测表示被变更的加工路径的数据以及表示工件的加工条件的数据作为状态变量，另外取得判定数据，该判定数据判定通过使用该被变更的加工路径的模拟而求出的周期时间的适当与否，并且使用这些状态变量和判定数据，将工件的加工条件与加工路径的变更关联起来进行学习。

Description

模拟装置

技术领域

本发明涉及一种模拟装置。

背景技术

以往，生成加工程序，根据该加工程序控制机床来加工工件。在工件的加工中，有从成为目标的刀具移动路径来看被容许的容许误差，一般为了在偏离指令路径的容许误差的范围内缩短周期时间，希望尽可能缩短加工路径。以往为机床的操作人员进行加工路径的生成和调整。

作为与这种工件的加工关联的现有技术，在日本特开2017-033138号公报中公开以下方法，即将机器学习采用到最优的各轴的移动量决定中，由此以短时间实现维持了加工精度的工件的加工。

一般而言，用于缩短周期时间的加工路径的生成和调整会成为机床操作人员的负担。另外，容许误差范围内的最优加工路径的生成较难，依赖于操作人员的经验或能力，在所生成的加工路径中大多会有周期时间缩短的余地。在上述日本特开2017-033138号公报公开的技术中，容许误差的设定成为机床的操作人员的负担，难以设定最优的容许误差。

发明内容

因此本发明的目的为提供一种不使操作员进行成为负担的设定而生成最优的加工路径的模拟装置。

本发明一个方式的模拟装置变更由机床进行的工件加工的加工路径，该模拟装置具备模拟上述机床的上述工件的加工的模拟部和学习上述加工路径的变更的机器学习装置。并且，上述机器学习装置具备：状态观测部，其观测表示被变更的加工路径的变更后加工路径数据以及表示工件的加工条件的加工条件数据作为表示环境的当前状态的状态变量；判定数据取得部，其取得周期时间判定数据作为表示加工路径的变更的适当与否判定结果的判定数据，上述周期时间判定数据判定根据上述被变更的加工路径判定在上述模拟部执行的模拟的结果内工件加工所花费的周期时间的适当与否；以及学习部，其使用上述状态变量和上述判定数据，将工件的加工条件与加工路径的变更关联起来进行学习。并且，上述加工路径的变更对构成上述加工路径的指令单位的方向以及长度或坐标值进行变更。

上述判定数据取得部还取得冲击判定数据作为表示加工路径的变更的适当与否判定结果的判定数据，该冲击判定数据判定在模拟的结果内加工中在上述机床产生的冲击。

上述学习部具备：回报计算部，其求出与上述适当与否判定结果相关联的回报；以及价值函数更新部，其使用上述回报来更新表示与工件的加工条件相对应的加工路径的变更行为的价值的函数，上述周期时间越短，上述回报计算部赋予越高的回报。

上述学习部通过多层构造来运算上述状态变量和上述判定数据。

本发明的其他方式的模拟装置变更由机床进行的工件加工的加工路径，具备模拟上述机床的上述工件的加工的模拟部和学习了上述加工路径的变更的机器学习装置。而且，上述机器学习装置具备：状态观测部，其观测表示被变更的加工路径的变更后加工路径数据以及表示工件的加工条件的加工条件数据作为表示环境的当前状态的状态变量；学习部，其将工件的加工条件与加工路径的变更关联起来进行了学习；以及决策部，其根据上述状态观测部观测到的状态变量和上述学习部的学习结果来决定加工路径的变更。并且，上述加工路径的变更对构成上述加工路径的指令单位的方向以及长度或坐标值进行变更。

根据本发明，使用CAM数据进行最优的非切削路径的学习和生成，由此能够缩短周期时间。在本发明中，不需要设定在现有技术的学习中所必要的容许误差而减轻操作者的负担，另外，在加工前生成最优的非切削路径，由此不需要学习用的实际加工，从而也能够降低用于学习的成本和时间。进一步，由于能够容易地取得根据学习到的结果而被最优化的加工程序，因此在没有机器学习装置的数值控制机床中也能够使用学习结果。

附图说明

图1是一个实施方式的模拟装置的概略硬件结构图。

图2是一个实施方式的模拟装置的概略功能框图。

图3是说明本发明的加工路径的变更的图。

图4是表示模拟装置的一个方式的概略功能框图。

图5是表示机器学习方法的一个方式的概略流程图。

图6A是说明神经元的图。

图6B是说明神经网络的图。

具体实施方式

图1是表示第一实施方式的模拟装置的主要部分的概略硬件结构图。

模拟装置1例如能够安装为与控制机床的控制装置并置的个人电脑、经由有线/无线网络与控制装置连接的单元计算机、主机、边缘服务器、云服务器等计算机。另外，模拟装置1能够安装为控制机床的控制装置。另外，模拟装置1例如是与控制机床的控制装置并置的个人电脑、在本实施方式中示出将模拟装置1安装为经由网络与控制机床2的控制装置连接的计算机。

本实施方式的模拟装置1所具备的CPU11是整体控制模拟装置1的处理器，经由总线20读出存储在ROM12中的系统/程序，并根据该系统/程序来控制模拟装置1的整体。RAM13中临时存储有临时的计算数据或显示数据、操作员经由未图示的输入部输入的各种数据等。

非易失性存储器14构成为以下存储器，例如通过电池(未图示)进行备份等，即使模拟装置1的电源被切断也保持存储状态。非易失性存储器14中存储有从输入装置71输入的程序或从未图示的外部存储装置读入的程序、经由网络从机床2或CAD/CAM等取得的各种数据(例如刀具的种类、工件的加工路径、加工速度、加工形状、夹具形状等CAM数据等)。存储在非易失性存储器14中的程序或各种数据可以在执行时/使用时在RAM13中展开。另外，在ROM12中预先写入公知的分析程序等各种系统/程序(包括用于控制与后述的机器学习装置100之间的交换的系统/程序)。

被读入存储器上的各个数据、作为执行了程序等的结果而得到的数据、从后述的机器学习装置100输出的数据等经由接口17被输出给显示装置70并进行显示。另外，由键盘或指示设备等构成的输入装置71接受基于操作员的操作的指令、数据等，并传输给CPU11。

接口18是用于连接输入装置71和机器学习装置100的接口。接口19是用于连接机床2和机器学习装置100的接口。

接口21是用于连接模拟装置1和机器学习装置100的接口。机器学习装置100具备统一控制机器学习装置100整体的处理器101、存储了系统/程序等的ROM102、用于进行机器学习相关的各个处理的临时存储的RAM103以及学习模型等的存储所使用的非易失性存储器104。机器学习装置100能够观测经由接口21能够通过模拟装置1取得的各个信息(例如刀具的种类、工件的加工路径、加工速度、加工形状、夹具形状等CAM数据等)。另外，模拟装置1接受从机器学习装置100输出的加工条件的变更指令，并执行基于变更了的加工路径的模拟处理。

图2是一个实施方式的模拟装置1和机器学习装置100的概略功能框图。

图2所示的各个功能块通过图1所示的模拟装置1所具备的CPU11以及机器学习装置100的处理器101执行各个系统/程序，并控制模拟装置1以及机器学习装置100的各部分的动作来实现。

本实施方式的模拟装置1具备模拟部34，该模拟部34根据从机床2或未图示的CAD/CAM取得的CAM数据和从机器学习装置100输出的加工路径的变更指令来模拟机床2的工件的加工。模拟部34例如使用CAM数据中包括的刀具种类、工件的加工路径、加工速度以及加工形状和夹具形状等的数据来模拟机床2的加工动作，作为该结果，输出作为加工时施加给刀具的负荷或加工的周期时间等一般模拟处理的结果的数据。另外，关于模拟部34执行的模拟处理，可以适当采用公知的模拟方法。

另外，模拟部34在从机器学习装置100输出加工路径的变更指令时，根据从机器学习装置100输出的加工路径的变更指令来变更CAM数据中包括的加工路径的数据，并执行使用了变更后的加工路径的数据的模拟。模拟部34在机器学习装置100的学习动作时，在进行了使用了根据该机器学习装置100的输出而变更后的加工路径的数据的机床2的工件加工的模拟后，将该工件的模拟结果显示在显示装置70，并且设为能够通过机器学习装置100观察该模拟结果的状态。

之后，如果操作员观察显示装置并满足该模拟结果，则包括被变更的加工指令的数据的CAM数据例如经由网络被发送给机床2，用于该机床2进行的实际加工。另一方面，当操作员不满足模拟的结果时，在机器学习装置100中，进行针对模拟结果的评价和基于该评价的机器学习，输出基于该机器学习的结果的新的加工路径的变更指令。

另一方面，模拟装置1所具备的机器学习装置100包括用于通过所谓的机器学习自行学习与工件的加工条件相对应的加工路径的变更的软件(学习算法等)以及硬件(处理器101等)。模拟装置1所具备的机器学习装置100进行学习的内容相当于表示工件的加工条件与加工路径的变更之间的相关性的模型结构。

如图2的功能块所示，模拟装置1所具备的机器学习装置100具备：状态观测部106，其观测表示上次被变更的加工路径的变更后加工路径数据S1以及表示工件的加工条件的加工条件数据S2作为表示环境的当前状态的状态变量S；判定数据取得部108，其取得包括周期时间判定数据D1的判定数据D，该周期时间判定数据D1用于判定根据被变更的加工路径进行的模拟的加工的周期时间；以及学习部110，其使用状态变量S和判定数据D，将工件的加工条件与加工路径的变更关联起来进行学习。

在状态观测部106所观测的状态变量S中，变更后加工路径数据S1能够使用根据机器学习装置100输出的加工路径的变更指令而被变更的加工路径。加工路径本身能够表示为构成加工路径的多个刀具的指令单位(通过G代码的G00、G01等的一个代码进行指令的移动)的组。

图3说明本发明的加工路径和该加工路径的变更。

如图3例示那样，加工路径由刀具3的多个指令单位构成，刀具3的各个指令单位能够分为非切削路径和切削路径。本发明的加工路径的变更能够表示为针对构成加工路径的刀具的多个指令单位内的若干个来变更方向和长度或坐标值的处理。一般而言，能够通过矢量的方式表现构成加工路径的各个指令单位，因而针对该矢量内的几个来变更方向和长度或坐标值即可。

本发明的加工路径的变更基本上在构成加工路径的刀具的多个指令单位内对于非切削路径进行，并且对于多个连续的非切削路径进行路径的变更时，进行调整使得最后的非切削路径的移动后的位置与变更前一致。另外，本发明的加工路径的变更将考虑CAM数据中包括的工件的加工形状，在该加工形状与刀具没有接触的范围进行。各个指令单位的方向和长度或坐标值的变更通过表示该指令单位的矢量的方向和长度的变量或坐标值的变量来表示，因此针对加工路径的变更能够表现为构成加工路径的各个指令单位的方向和长度的变量或坐标值的变量的组。

另外，本发明的加工路径的变更还可以加上将指令单位的直线路径变更为圆弧路径(通过G代码的G02、G03等的代码进行指令的移动)的情况。

变更后加工路径数据S1能够直接使用由机器学习装置100根据学习部110的学习结果对一个之前的学习周期的加工路径输出的在该学习周期中变更后的加工路径。在取得这种方法时，可以设为机器学习装置100将上次被变更的加工路径按照每个学习周期临时存储在RAM103中，状态观测部106从RAM103取得在一个之前的学习周期中被变更的加工路径作为这次的学习周期的变更后加工路径数据S1。

状态观测部106观测的状态变量S中的加工条件数据S2能够使用CAM数据中包括的刀具种类、加工速度、加工形状、夹具形状等。

判定数据取得部108能够取得针对周期时间的判定结果作为周期时间判定数据D1，该判定结果是通过根据被变更的加工路径由模拟部34执行的机床2的工件加工的模拟处理求出的。判定数据取得部108所取得的周期时间判定数据D1例如可以是针对在没有变更加工路径的状态下通过进行机床2的工件加工的模拟处理求出的周期时间，在变更了加工路径的状态下求出的周期时间有多小(适合)或有多大(不合适)的数据。

另外，判定数据取得部108在学习部110进行学习的阶段为必须的结构，但是在将学习部110进行的将工件的加工条件与加工路径的变更关联起来的学习结束之后不是必须的结构。

与判定数据D同时输入到学习部110的状态变量S在以学习部110进行的学习周期进行考虑时，为基于比取得该判定数据D的学习周期更前一个学习周期的数据的数据。如此，在模拟装置1所具备的机器学习装置100推进学习的期间，重复实施基于加工路径数据S1的模拟部34的加工模拟的执行以及判定数据D的取得，该加工路径数据S1是基于在环境中加工条件数据S2的取得、根据所取得的各个数据进行变更的加工路径数据。

学习部110根据被总称为机器学习的任意学习算法来学习与工件的加工条件相对应的加工路径的变更。学习部110能够反复执行基于包括上述的状态变量S和判定数据D的数据集合的学习。在与工件的加工条件相对应的加工路径的变更的学习周期的反复中，状态变量S如上所述使用一个学习周期前的工件的加工条件以及在一个学习周期前中进行了变更的加工路径，另外判定数据D使用根据被变更的加工路径进行的模拟处理的合适与否判定结果。

通过重复这样的学习周期，学习部110能够识别暗示工件的加工条件与加工路径的变更之间的相关性的特征。在学习算法开始时，工件的加工条件与加工路径的变更之间的相关性实质上是未知的，但是学习部110根据学习的推进逐渐识别暗示该相关性的特征并解释该相关性。如果工件的加工条件与加工路径的变更之间的相关性被解释到某种程度能够信赖的水平，则学习部110反复输出的学习结果成为能够使用于为了针对当前状态(即工件的加工条件)进行应该怎样变更加工路径的行为的选择(即决策)。即学习部110随着学习算法的推进，能够使表示针对工件的加工条件应该怎样变更加工路径的行为的相关性慢慢地接近最佳解。

决策部122根据状态变量S和学习部110学习到的结果来决定加工路径的变更，并将用于进行决定出的加工路径的变更的加工路径的变更指令输出给模拟部34。

如上所述，模拟装置1所具备的机器学习装置100使用状态观测部106观测到的状态变量S和判定数据取得部108取得的判定数据D，由学习部110根据机器学习算法来学习与工件的加工条件相对应的加工路径的变更。状态变量S由被称为变更后加工路径数据S1以及加工条件数据S2的数据构成，另外根据作为模拟处理的结果而取得的信息来唯一地求出判定数据D。因此，根据模拟装置1所具备的机器学习装置100，使用学习部110的学习结果，由此能够自动并且正确地进行与工件的加工条件对应的最优的加工路径的变更。

并且，如果能够自动地进行最优的加工路径的变更，则只要把握CAM数据等的加工有关的数据，就能够迅速地将加工路径向适当的状态变更。

作为模拟装置1所具备的机器学习装置100的一个变形例，判定数据取得部108除了周期时间判定数据D1，还可以取得冲击判定数据D2作为判定数据D，该冲击判定数据D2用于判定在根据被变更的加工路径进行的工件的加工中机床2所产生的冲击。判定数据取得部108所取得的冲击判定数据D2可以是通过适当设定的判定基准进行判定的结果，该判定基准为例如在根据被变更的加工路径进行的模拟处理中求出的刀具的加速度(加速度大时机器会产生冲击)是比预先决定的预定阈值小(适当)或者大(否)。通过取得冲击判定数据D2作为判定数据D，从而能够在机床2不产生大的冲击的范围中向缩短工件的加工时间的加工路径变更。

在具有上述结构的机器学习装置100中，不特别限定学习部110所执行的学习算法，能够采用公知的学习算法作为机器学习。图4表示作为图2所示的模拟装置1的一个方式，具备将强化学习作为学习算法进行执行的一例的学习部110的结构。强化学习为以下一种方法，其观测学习对象所存在的环境的当前状态(即输入)并且在当前状态下执行预定的行为(即输出)，试错地反复进行对该行为赋予什么样的回报的循环，并将回报的总计最大化的策略(本申请的机器学习装置中为加工路径的变更)作为最佳解进行学习。

在图4所示的模拟装置1所具备的机器学习装置100中，学习部110具备：回报计算部112，其根据状态变量S进行加工路径的变更，求出基于被变更的加工路径的模拟的合适与否判定结果(相当于在取得了状态变量S的学习周期的接下来的学习周期中使用的判定数据D)相关联的回报R；以及价值函数更新部114，其使用回报R来更新表示上次被变更的加工路径的价值的函数Q。学习部110通过由价值函数更新部114重复进行函数Q的更新来学习针对工件的加工条件的加工路径的变更。

说明由学习部110执行的强化学习的算法的一例。该例子的算法作为Q学习(Q-learnig)而被知道，将行为主体的状态s与在该状态s下行为主体能够选择的行为a作为独立变量，学习表示在状态s下选择了行为a时的行为的价值的函数Q(s，a)。选择在状态s下价值函数Q成为最高的行为a为最佳解。在状态s和行为a之间的相关性为未知的状态下开始Q学习，重复在任意的状态s下选择各种行为a的试错，由此反复更新价值函数Q，接近最佳解。这里，构成为在作为在状态s下选择了行为a的结果而环境(即状态s)发生了变化时，构成为得到与该变化对应的回报(即行为a的权重)r，而通过引导学习以使选择能够得到更高回报R的行为a，由此能够在比较短的时间内使价值函数Q接近最佳解。

价值函数Q的更新式一般能够如下述的公式(1)那样表示。在公式(1)中，s_t以及a_t分别是时刻t的状态以及行为，通过行为a_t而状态变化为s_t+1。r_t+1是通过状态从s_t变化为s_t+1而得到的回报。maxQ的项表示在时刻t+1进行了成为最大的价值Q(和在时刻t考虑)的行为a时的Q。α以及γ分别是学习系数以及折扣率，通过0<α≤1、0<γ≤1任意设定。

当学习部110执行Q学习时，状态观测部106观测到的状态变量S以及判定数据取得部108取得的判定数据D相当于更新式的状态s，相对于当前状态(即工件的加工条件)应该怎样变更加工路径的行为相当于更新式的行为a，回报计算部112求出的回报R相当于更新式的回报r。因此价值函数更新部114通过使用了回报R的Q学习来重复更新表示与当前状态相对应的上次被变更的加工路径的价值的函数Q。

回报计算部112求出的回报R例如在变更了加工路径后进行的、基于变更后的激光加工的模拟的适当与否判定结果被判定为“适当”时(例如工件加工的周期时间变短时或在预定阈值以下时等、工件加工时产生的冲击比预先决定的阈值要小时等)，设为正(+)的回报R，在变更了加工路径后进行的、基于变更后的模拟的适当与否判定结果被判定为“否”时(例如工件加工的周期时间变长时或在预定阈值以上时等、工件加工时产生的冲击比预先决定的阈值要大时等)，设为负(-)的回报R。正负回报R的绝对值可以相互相同也可以不同。另外，作为判定的条件，可以组合判定数据D中包括的多个值进行判定。

另外，不仅能够将基于调整后的上次被变更的加工路径的工件加工的适当与否判定结果设定为“适当”以及“不适当”两种，也能够设定为多个阶段。作为例子，当通过模拟求出的工件加工的周期时间的阈值为T_max时，工件的加工所花费的周期时间T能够构成为，当0≤T<T_max/5时赋予回报R＝5，当T_max/5≤T<T_max/2时赋予回报R＝3，当T_max/2≤T<T_max时赋予回报R＝1，当T_max≤T时赋予回报R＝-3(负的回报)。

另外，在使用多个判定数据时，按照每个判定数据使回报的值变化(附给权重)，从而能够变更作为学习的目标的状态。例如通过提高根据周期时间判定数据D1的判定结果赋予的回报，由此能够学习重视加工时间的加工路径的变更，并且另一方面，提高根据冲击判定数据D2的判定结果赋予的回报，由此能够学习重视加工的稳定性或刀具或机床2的寿命的加工路径的变更。进一步，结构也能够为，学习的初始阶段将判定所使用的阈值设定得较大，随着学习的推进缩小判定所使用的阈值。

价值函数更新部114能够具有将状态变量S、判定数据D和回报R与通过函数Q表示的行为价值(例如数值)关联起来进行整理得到的行为价值表。此时，价值函数更新部114更新函数Q的行为与价值函数更新部114更新行为价值表的行为意思相同。在Q学习开始时，由于环境的当前状态与加工路径的变更之间的相关性是未知的，所以在行为价值表中，通过与随机决定的行为价值的值(函数Q)关联起来的方式准备各种状态变量S、判定数据D和回报R。，如果知道判定数据D，则回报计算部112能够立刻计算与其对应的回报R，该计算出的值R被写入行为价值表中。

如果使用与模拟的适当与否判定结果对应的回报R来推进Q学习，则学习被引导到选择得到更高回报R的行为的方向，根据作为在当前状态下执行所选择的行为的结果而变化的环境的状态(即状态变量S以及判定数据D)，改写关于在当前状态下进行的行为的行为价值的值(函数Q)并更新行为价值表。通过重复该更新，显示在行为价值表中的行为价值的值(函数Q)被改写为越是适当的行为(本发明的情况为，在机床2不产生大的冲击的范围中，变更加工路径使得工件加工的周期时间变短的行为)越成为大的值。这样，未知的环境的当前状态(工件的加工条件)和与其对应的行为(加工路径的变更)之间的相关性逐渐变得明确。即，通过行为价值表的更新，工件的加工条件与加工路径的变更之间的关系逐渐接近最佳解。

参照图5，进一步说明学习部110执行的上述Q学习的流程(即机器学习方法的一个方式)。

首先在步骤SA01中，价值函数更新部114一边参照在该时间点的行为价值表，一边随机选择加工路径的变更行为作为在状态观测部106观测到的状态变量S所表示的当前状态下进行的行为。接着，价值函数更新部14在步骤SA02取入状态观测部106观测到的当前状态的状态变量S，在步骤SA03取入判定数据取得部108取得的当前状态的判定数据D。接着，价值函数更新部114在步骤SA04中根据判断数据D判断被变更的加工路径的模拟的结果是否适当，如果适当，则在步骤SA05中，将回报计算部112求出的正的回报R适用于函数Q的更新式，接着在步骤S06，使用当前状态的状态变量S以及判定数据D和回报R和行为价值的值(更新后的函数Q)来更新行为价值表。另一方面，在步骤SA04中判断为基于被变更的加工路径进行的模拟的结果为不适当时，在步骤SA07中将回报计算部112求出的负的回报R适用于函数Q的更新式，接着在步骤S06中使用当前状态的状态变量S以及判定数据D和回报R和行为价值的值(更新后的函数Q)来更新行为价值表。学习部110通过重复步骤SA01～SA07的处理来反复更新行为价值表，并推进加工路径的变更的学习。另外对判定数据D中包括的各个的数据来执行求出从步骤SA04到步骤SA07的回报R的处理以及价值函数的更新处理。

在推进上述强化学习时，例如能够应用神经网络。图6A示意地表示神经元的模型。图6B示意地表示组合图6A所示的神经元而构成的三层神经网络的模型。神经网络例如能够由模拟了神经元的模型的运算装置或存储装置等构成。

图6A所示的神经元输出与多个输入x(这里作为一例为输入x₁～输入x₃)相对应的结果y。对各个输入x₁～x₃乘以与该输入x对应的权重w(w₁～w₃)。这样，神经元输出通过接下来的公式(2)表现的输出y。另外，在公式(2)中，输入x、结果y以及权重w都是矢量。另外，θ是偏置，f_k是激活函数。

图6B所示的三层神经网络从左侧输入多个输入x(这里作为一例为输入x1～输入x3)，从右侧输出结果y(这里作为一例为结果y1～y3)。在图示的例子中，乘以分别于输入x1、x2、x3对应的权重(用w1统称表示)，每个输入x1、x2、x3均输入到3个神经元N11、N12、N13中。

图6B中，用z1统称表示神经元N11～N13各自的输出。z1能够视为提取输入了矢量的特征量的特征矢量。在图示的例子中，对特征矢量z1分别乘以对应的权重(用w2统称表示)，每个特征矢量z1均被输入到2个神经元N21、N22中。特征矢量z1表示权重w1与权重w2之间的特征。

并且，用z2统称表示神经元N21～N22各自的输出。z2能够视为提取特征矢量z1的特征量的特征矢量。在图示的例子中，乘以分别与特征矢量z2对应的权重(用w3统称表示)，每个特征矢量z2均被输入到3个神经元N31、N32、N33中。特征矢量z2表示权重w2与权重w3之间的特征。最后神经元N31～N33分别输出结果y1～y3。

另外，也能够使用所谓的深度学习的方法，该方法使用了组成三层以上的层的神经网络。

在模拟装置1所具备的机器学习装置100中，将神经网络作为Q学习的价值函数来使用，将状态变量S和行为a作为输入x，由学习部110进行按照上述神经网络的多层构造的运算，由此能够输出某个状态的某个行为的价值(结果y)。另外，神经网络的动作模式中有学习模式和价值预测模式，例如在学习模式中使用学习数据组学习权重w，能够使用学习到的权重w在价值预测模式下进行行为的价值判断。另外在价值预测模式中也能够进行检测、分类、推论等。

上述模拟装置1的结构能够记述为由处理器101执行的机器学习方法(或软件)。该机器学习方法是学习加工路径的变更的机器学习方法，计算机的CPU执行以下步骤：观测变更后加工路径数据S1以及加工条件数据S2作为表示机床2进行动作的环境的当前状态的状态变量S的步骤；取得表示基于被变更的加工路径的模拟处理的适当与否判定结果的判定数据D的步骤；以及使用状态变量S和判定数据D，将加工条件数据S2与加工路径的变更关联起来进行学习的步骤。

以上，说明了本发明的实施方式，但是本发明不仅限于上述实施方式的例子，能够通过增加适当的变更以各种方式来实施。

例如，机器学习装置100执行的学习算法或运算算法、模拟装置1执行的控制算法等不限于上述算法而能够采用各种算法。

另外，在上述实施方式中模拟装置1和机器学习装置100作为具有不同的CPU的装置进行说明，但是机器学习装置100也可以通过模拟装置1所具备的CPU11、存储在ROM12中的系统程序来实现。

Claims

1.一种模拟装置，其变更由机床进行的工件加工的加工路径，其特征在于，

该模拟装置具备：

模拟部，其模拟上述机床的上述工件的加工；以及

机器学习装置，其学习上述加工路径的变更，

上述机器学习装置具备：

状态观测部，其观测表示被变更的加工路径的变更后加工路径数据以及表示工件的加工条件的加工条件数据作为表示环境的当前状态的状态变量；

判定数据取得部，其取得周期时间判定数据作为表示加工路径的变更的适当与否判定结果的判定数据，该周期时间判定数据判定根据上述被变更的加工路径在上述模拟部执行的模拟的结果内工件加工所花费的周期时间的适当与否；以及

学习部，其使用上述状态变量和上述判定数据，将工件的加工条件与加工路径的变更关联起来进行学习，

上述加工路径的变更对构成上述加工路径的指令单位的方向以及长度或坐标值进行变更。

2.根据权利要求1所述的模拟装置，其特征在于，

3.根据权利要求1或2所述的模拟装置，其特征在于，

上述学习部具备：

回报计算部，其求出与上述适当与否判定结果相关联的回报；以及

价值函数更新部，其使用上述回报来更新表示与工件的加工条件相对应的加工路径的变更行为的价值的函数，

上述周期时间越短，上述回报计算部赋予越高的回报。

4.根据权利要求1～3中任意一项所述的模拟装置，其特征在于，

5.一种模拟装置，其变更由机床进行的工件加工的加工路径，其特征在于，

该模拟装置具备：

模拟部，其模拟上述机床的上述工件的加工；以及

机器学习装置，其学习了上述加工路径的变更，

上述机器学习装置具备：

学习部，其将工件的加工条件与加工路径的变更关联起来进行了学习；以及

决策部，其根据上述状态观测部观测到的状态变量和上述学习部的学习结果来决定加工路径的变更，