CN110091084B

CN110091084B - 学习激光装置的故障发生机制的机器学习装置

Info

Publication number: CN110091084B
Application number: CN201910093068.1A
Authority: CN
Inventors: 泷川宏; 高实哲久
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2018-01-30
Filing date: 2019-01-30
Publication date: 2022-06-21
Anticipated expiration: 2039-01-30
Also published as: DE102019000457B4; DE102019000457A1; JP2019130559A; US20190235481A1; CN110091084A; JP6892400B2; US10990089B2

Abstract

本发明提供一种学习激光装置的故障发生机制的机器学习装置，机器学习装置通过激光装置的控制部，观测包含由输出光传感器检测出的光输出的时序数据和光输出指令的激光装置内外的状态变量，获取针对激光装置中的各故障输出的定量性故障发生机制的正确与否确的判断结果。而且，将与各故障对应的定量性故障发生机制与状态变量和定量性故障发生机制的正确与否的判断结果关联起来进行学习，在检测出各故障的发生时，决定应输出的定量性故障发生机制。

Description

学习激光装置的故障发生机制的机器学习装置

技术领域

本发明涉及一种将高功率激光装置中的定量性故障发生机制进行学习的机器学习装置，该高功率激光装置将从将很多激光二极管模块用作发光源或激发光源的激光振荡器发射的激光经由光纤从加工头照射到工件而进行激光加工。

详细地说，涉及一种还具备作为预防保全装置的功能的机器学习装置：关于通过光纤传播从将很多激光二极管模块设为发光源的直接二极管激光振荡器或将很多激光二极管模块设为激发光源的光纤激光振荡器等出射的激光的高功率激光装置中的故障，不仅根据发生该故障的时间点、其前后的激光装置的状态对故障发生的原因、故障发生的条件进行学习，还使用从经由网络连接的激光装置获取的数据，学习成为故障发生的诱因的故障原因及该故障的大小值故障原因引起的激光装置的状态的定量性变化、随着激光装置的状态变化而发生损伤的物理机制、包含由该物理机制而损伤的位置、损伤状态、程度的故障状况为止的一系列因果关系的激光装置的定量性故障发生机制，参照学习结果，对激光装置指令故障避免驱动条件，输出直到故障发生为止的剩余时间等。

背景技术

被认为与激光装置的发生故障原因、故障发生条件有关的激光装置的状态变量为还包含硬件结构、制造信息、履历的驱动条件、驱动状况、来自多个光检测传感器、各部的温度传感器、湿度传感器的输出、温度、湿度、振动、高度、空气清净度等周围环境条件等涉及多个方面。另一方面，故障并非是常见现象，因此难以得到足够量的数据。

其结果，存在以下问题：即使将故障状态这种结果与发生故障的时间点及其前后的激光装置的状态变量关联起来通过机器学习对故障发生原因、故障发生条件进行学习，也无法得到足够的精度或直到很多故障数据集中而精度提高为止花费很多时间。

例如作为对象的装置并非是激光装置，但是在日本特开2017-030221号公报中公开了以下一种异常诊断装置：使用出射成形机的内外状态数据，通过机器学习器诊断出射成形机的异常。在该异常诊断装置中，使用发生异常时得到的上述状态数据以及并未发生异常时得到的上述状态数据来进行机器学习，由此得到上述机器学习器的内部参数。并且，在上述异常诊断装置中，在预测异常发生时，从上述状态变量中确定成为异常的原因的状态变量。但是，在上述异常诊断装置中即使确定成为异常的原因的状态变量，也不对定量性故障发生机制进行机器学习。这样，在上述日本特开2017-030221号公报中并未提及结合异常原因与异常现象的物理性证据，因此并未示出对以下问题的解决对策：存在很多状态变量，故障发生事例较少，因此即使通过机器学习进行学习，也无法得到足够的精度，或者直到很多故障数据集中而提高精度为止花费很多时间。

另外，在日本特开2017-033526号公报中公开了一种对与工业机器的故障相关联的条件进行学习的机器学习装置，该机器学习装置具备：状态观测部，其在上述工业机器的动作过程中或静止过程中观测包含检测上述工业机器或周围环境的状态的传感器的输出数据、控制上述工业机器的控制软件的内部数据以及根据上述输出数据或上述内部数据得到的计算数据中的至少一个的状态变量；判断数据获取部，其获取将上述工业机器是否存在故障或故障的程度进行判断的判断数据；以及学习部，其按着根据上述状态变量和上述判断数据的组合制作出的训练数据集，学习与上述工业机器的故障关联起来的条件。

但是，根据上述日本特开2017-033526号公报，上述学习部仍然将与故障相关联的条件进行学习，但是并未将定量性故障发生机制进行机器学习，并未提及结合异常原因与异常现象的物理性证据，因此并未示出对以下问题的解决对策：存在很多状态变量，故障发生事例较少，因此即使通过机器学习进行学习，也无法得到足够的精度，或者直到很多故障数据集中而精度提高为止花费很多时间。

另外，在日本特开2015-088079号公报中公开了一种监视机器设备的健康状态的健康管理系统，该健康管理系统具备：时序数据获取部，其作为时序数据而获取从设置于上述机器设备的多个传感器获取的传感器数据或表示上述传感器数据和上述机器设备的设置环境的环境数据；状态定量化部，其通过将在上述机器设备处于正常状态时获取的上述时序数据即正常数据用作学习数据的统计方法，将表示上述机器设备的设备状态和上述机器设备的性能或质量的状态的健康状态进行定量化；以及输出部，其将述定量化的设备状态和上述定量化的健康状态进行显示或/和输出到外部。但是，在该健康管理系统中通过将正常数据用作学习数据的统计方法，将机器设备的健康状态进行定量化，但是并未对定量性故障发生机制进行机器学习。而且，在该日本特开2015-088079号公报中并未提及结合异常原因与异常现象的物理性证据，因此并未示出对以下问题的解决对策：存在很多状态变量并且故障发生事例较少，因此即使通过机器学习进行学习，也无法得到足够的精度或直到很多故障数据集中而精度提高为止花费很多时间。

如上所述，在先行技术文献中均为提及根据表示发生异常、故障时的装置的状态的数据以及表示并未发生异常、故障时的装置的状态的数据来进行异常诊断、异常原因的确定、与故障相关联的条件的学习或机器设备的健康状态的定量化等的技术，因此并未示出对以下问题的解决对策：存在很多状态变量并且故障发生事例较少，因此即使通过机器学习进行学习，也无法得到足够的精度或直到很多故障数据集中而精度提高为止花费很多时间。

在高功率激光装置中，在细光纤的纤芯内传播高能的光，因此除了存在通常的机器装置中的机器故障模式以外，还存在其高密度的光能相关联的故障、与传播高密度的光能的光学部件相关联的故障、与由于使用很多高功率的激光二极管模块而产生的激光二极管模块相关联的故障、与将高功率提供给激光二极管模块的电源相关联的故障等很多故障模式。另外，在被认为与故障发生原因、故障发生条件有关的激光装置的状态变量中，包含使用于装置的激光二极管模块、光耦合器(组合器)、放大用光纤、传输光纤、加工头、电源部、传感器的种类、型号等硬件结构的数据、使用部件的批号、制造条件、制造日期、出厂试验结果等制造信息、还包含在什么样的驱动条件下驱动了多久这种履历的驱动条件、驱动状况的数据、用于检测来自激光振荡器的输出光、工件、来自激光光学系统等的反射光的多个光检测传感器、激光振荡器、用于冷却激光振荡器的冷却部等的各部的温度传感器、来自用于检测装置内的空气湿度的湿度传感器等很多传感器的输出数据、温度、湿度、振动、高度、空气清净度等周围环境条件等很多种类。

其结果，发生以下问题：在发生故障时，人并不容易掌握上述所有数据、条件，并考虑其影响，进行故障诊断、故障原因的确定，无法得知哪里发生故障，修复费时、无法掌握故障发生原因而再次发生相同故障、并未获知故障发生条件，因此无法预防故障。

掌握人难以进行的很多条件、数据，为了考虑其影响而进行故障诊断、故障原因的确定、故障发生条件的掌握，考虑应用机器学习，但是故障并非是常见现象，另外，高功率激光装置价格昂贵并且多次反复进行强制地将负载提高至发生故障为止而进行驱动这种边缘特性试验并不现实，因此得到机器学习所需的与故障有关的数据本身较困难。

其结果，如上所述，存在以下问题：即使将故障状态这种结果与发生故障的时间点及其前后的激光装置的状态变量关联起来通过机器学习对故障发生原因、故障发生条件进行学习，也无法得到足够精度的学习结果，或者直到很多故障数据集中而学习精度提高为止花费很多时间。

发明内容

因而，本发明的目的在于，提供一种机器学习装置，针对存在很多故障模式而在以往的方法中难以掌握故障发生原因、故障发生条件的高功率激光装置中的故障，即使根据较少的故障数据，也能够高精度地对故障发生原因、故障发生条件进行学习，并使用该学习结果能够进行精确的预防性维修。

本发明的机器学习装置经由网络与至少一台激光装置连接为能够相互进行信息通信的状态，该激光装置具备：至少一个激光振荡器；电源部，其将驱动电流供给至上述激光振荡器；至少一个输出光传感器，其检测从上述激光振荡器出射的激光的光输出；以及控制部，其至少对上述电源部输出与光输出指令对应的电流输出指令，并接收来自上述输出光传感器的检测信号。而且，上述机器学习装置具备：状态观测部，其通过上述激光装置的上述控制部，观测包含由上述输出光传感器检测出的光输出的时序数据和上述光输出指令的上述激光装置内外的状态变量；判断结果取得部，其取得针对上述激光装置中的各故障从上述机器学习装置输出的定量性故障发生机制的正确与否的判断结果；学习部，其接收来自上述状态观测部的输出以及来自上述判断结果取得部的输出，将上述各故障所对应的上述定量性故障发生机制与由上述状态观测部观测到的上述激光装置的状态变量和由上述判断结果取得部取得的上述定量性故障发生机制的正确与否的判断结果关联起来进行学习；以及决策部，其至少在根据上述光输出的时序数据与上述光输出指令的对照检测出上述各故障的发生时，参照上述学习部的学习结果，决定应从上述机器学习装置输出的上述定量性故障发生机制。

上述机器学习装置通过上述结构，针对各种故障的每个故障，学习从故障原因至故障发生状况为止的一系列定量性故障发生机制，由此与通过状态变量的统计性处理等来推定故障原因、故障发生条件的学习方法相比，能够更可靠地进行与物理现象、物理机制匹配的准确的推定。

在上述机器学习装置中，在上述状态观测部观测的上述激光装置的上述状态变量中包含以下内容中的至少一个：

包含上述激光装置的加工头的硬件结构；

上述激光装置或构成上述激光装置的单元、部件的制造信息；

表示上述激光装置的驱动条件或驱动状况，且来自设置于上述激光装置的内部或外部的传感器的输出数据；

上述驱动条件或上述驱动状况的履历；

上述激光装置的修理履历；

控制上述激光装置的控制软件的内部数据；以及

根据上述输出数据或上述内部数据得到的计算数据，

此外，在上述输出数据中包含来自上述激光装置或上述激光振荡器的光输出、在包含光纤的激光光学系统内在与激光输出光相反的方向上传播的反射光强度、上述激光振荡器的激发光源即激光二极管模块的驱动电流或驱动电力、上述激光二极管模块或与上述激光二极管模块进行热连接的部位的温度、用于抑制上述激光二极管模块的温度上升的散热片的温度、将散热片进行冷却的制冷剂的种类、特性、温度、流量、压力、对激光装置施加的振动强度、加速度、冲击强度、激光装置的周边空气的温度、湿度、清洁度、含油雾浓度、含浮游粒子浓度。

上述机器学习装置通过上述结构，观测很多状态变量，由此能够准确地学习与各种故障对应的定量性故障发生机制。

上述机器学习装置记录了表现与上述激光装置中的各故障对应的定量性故障发生机制的至少一部分的至少一个物理模型，该定量性故障发生机制包括成为故障发生的诱因的故障原因及该故障的大小开始到由上述故障原因引起的上述激光装置的上述状态变量中的特定的上述状态变量的值或变化、随着上述特定的状态变量的上述值或上述变化而发生损伤的物理现象或物理机制、由上述物理现象或上述物理机制引起损伤的位置或部件及表示该损伤的状态/程度的故障状况为止的一系列物理性因果关系，并且，参照上述物理模型，进行与上述各故障对应的上述定量性故障发生机制的推定以及与上述各故障对应的上述定量性故障发生机制的学习中的至少一个。

在上述机器学习器中，通过上述结构，参照物理模型，由此较早期阶段，能够推定出物理上合理的定量性故障发生机制的概率增加。

上述机器学习装置根据由上述激光装置的管理员或操作员或维修负责人确认的故障发生状况与上述输出的上述定量性故障发生机制所包含的故障发生状况有无同一性、以及参照上述物理模型检验的上述确认的上述故障发生状况与上述输出的上述定量性故障发生机制所包含的上述物理现象或上述物理机制有无匹配性中的至少一方的有无符合性，来判断对上述激光装置中的各故障输出的上述定量性故障发生机制的正确与否。

上述机器学习装置通过上述结构，物理现象或物理机制有无匹配性也通过结合正确与否的判断，排除与物理模型矛盾的推定，从而能够学习对各种故障合理的定量性故障发生机制。

在上述机器学习装置中，上述学习部具有反映了学习结果的至少一个学习模型，并且，上述学习部具备误差计算部和学习模型更新部，在上述确认的上述故障发生状况与上述输出的上述定量性故障发生机制所包含的上述故障发生状况存在差异的情况下，根据上述差异的大小来计算误差，上述学习模型更新部根据上述误差来更新上述学习模型，并且，当参照上述物理模型时，在上述确认的故障发生状况与上述输出的定量性故障发生机制所包含的上述物理现象或上述物理机制矛盾的情况下，认为产生了比前者更大的误差并计算误差，上述学习模型更新部根据上述误差的大小，更新上述学习模型。

上述机器学习装置通过上述结构，在确认的故障发生状况与输出的定量性故障发生机制内包含的故障发生状况不同，且与输出的定量性故障发生机制内包含的物理现象、物理机制不匹配而矛盾的情况下，认为定量性故障发生机制的学习结果的误差相对于该故障更大，而更新学习模型，由此对各种故障中的各故障，能够学习与物理模型符合的合理的定量性故障发生机制。

在上述机器学习装置中，上上述学习部具有反映了学习结果的至少一个价值函数，并且，上述学习部具备回报计算部和价值函数更新部，在上述确认的上述故障发生状况与上述输出的上述定量性故障发生机制所包含的上述故障发生状况一致的情况下，上述回报计算部设定正的回报，在上述确认的上述故障发生状况与上述输出的上述定量性故障发生机制所包含的上述故障发生状况存在差异的情况下，上述回报计算部根据差异的大小设定负的回报，当参照上述物理模型时，在所确认的故障发生状况与推定出的定量性故障发生机制所包含的上述物理现象或上述物理机制产生矛盾的情况下，上述回报计算部设定比前者更大的负的回报，上述价值函数更新部根据由上述回报计算部设定的上述回报，更新上述价值函数。

上述机器学习装置通过上述结构，将通过监督学习对与各种故障中的各故障对应的定量性故障发生机制进行机器学习的结果作为初始状态而进行强化学习，由此能够使学习进一步加深。在确认的故障发生状况与输出的定量性故障发生机制内包含的故障发生状况不同，与输出的定量性故障发生机制内包含的物理现象、物理机理不匹配而矛盾的情况下，通过设定更大的负的回报，对各种故障，能够学习与物理模型符合的更合理的定量性故障发生机制。

在上述机器学习装置中，上述学习部在检测出上述激光装置中的故障时，针对上述故障，通过上述决策部不仅输出单一的第一候选的上述定量性故障发生机制，还输出第二候选的上述定量性故障发生机制、第三候选的上述定量性故障发生机制等上述多个定量性故障发生机制，上述回报计算部在对各候选的定量性故障发生机制设定正或负的回报时，上述定量性故障发生机制的候选顺序越是上位则设定绝对值相对大的回报，上述定量性故障发生机制的候选顺序越是下位则设定绝对值相对小的回报，上述价值函数更新部根据由上述回报计算部设定的上述回报，更新上述价值函数。

上述机器学习装置通过上述结构，有效地使用较少故障发生数据而能够进行学习。另外，即使第一候选的定量性故障发生机制内包含的故障位置或故障部件不正确，也能够检查紧接着的下一个候选的定量性故障发生机制内包含的故障位置或故障部件，因此能够减少因不知故障位置而恢复费时这种问题的发生概率。

上述机器学习装置还具有作为以下预防保全装置的功能：参照通过学习掌握的各故障所对应的上述定量性故障发生机制，在通过上述网络连接为能够相互信息通信的状态的任一个上述激光装置中的任一上述状态变量的值或者将任一上述状态变量的值作为坐标值的多个点相比预定范围更接近因任一个上述定量性故障发生机制发生故障的故障发生区域时，对激光装置的上述控制部指令用于预防故障发生的驱动条件即故障避免驱动条件。

上述机器学习装置通过上述结构，参照通过学习掌握的各故障所对应的定量性故障发生机制，在激光装置的状态变量的值或将上述任一状态变量的值设为坐标值的多个点接近由任一个定量性故障发生机制发生故障的故障发生区域时，在发生故障前，将故障避免驱动条件对激光装置的控制部进行指令，由此能够预防激光装置的故障。

上述机器学习装置指令上述激光装置的上述控制部按照预定时间表且以预定的驱动条件驱动上述激光装置，将包含每次以上述预定驱动条件驱动时的上述激光装置的光输出特性数据的上述状态变量记录为上述激光装置的上述状态变量的履历数据，将记录的上述履历数据包含在由上述状态观测部观测的状态变量中。

上述机器学习装置通过上述结构，定期地记录在预定的相同驱动条件下驱动时的激光装置的状态变量，由此能够掌握激光装置的状态变量的转变，从而能够有助于学习由磨损故障引起的故障的定量性故障发生机制。

上述机器学习装置还具有作为以下预防保全装置的功能：参照通过学习掌握的各故障所对应的上述定量性故障发生机制，在根据上述履历数据所包含的任一状态变量的值的推移或将任一上述状态变量的值作为坐标值的多个点的移动推移，观测到任一状态变量的值或将任一上述状态变量的值作为坐标值的多个点逐渐接近因任一个上述定量性故障发生机制发生故障的上述故障发生区域的情况下，在以标准驱动条件驱动了上述激光装置时，预测逐渐接近上述故障发生区域的上述状态变量的值或将上述状态变量的值作为坐标值的点到达上述故障发生区域为止的时间即直到发生故障为止的剩余时间，当上述剩余时间比预定时间短时，输出上述剩余时间以及预测为经过上述剩余时间之后发生故障的上述定量性故障发生机制中的至少一个信息。

上述机器学习装置通过上述结构，具有时间上缓慢变化的状态变量的值接近故障发生区域的情况下的预防性保全功能，在发生故障前能够获知由磨损故障引起的故障发生等，从而能够进行准确的预防性保全，并能够最小限度地抑制激光装置的保修时间。

在上述机器学习装置中，在通过上述网络连接为能够相互进行信息通信的状态的上述任一个激光装置相当于以下任一状态：重新与上述网络进行连接，移动了设置位置，比预定暂停时间长的期间未被驱动，更换了结构部件，调整了结构部件，并且，上述激光装置的状态变量为未知或有可能从上一次驱动时发生了变化的情况下，指令相应的激光装置的上述控制部，在以标准性驱动条件或高负载驱动条件驱动之前以预定的低负载驱动条件进行驱动，通过上述状态观测部观测以上述低负载驱动条件驱动时的状态变量，参照通过学习已掌握的各故障所对应的上述定量性故障发生机制，在以标准性驱动条件或高负载驱动条件驱动了的情况下，在预测发生故障的情况下，输出预测要发生的故障的定量性故障发生机制。

上述机器学习装置通过上述结构，能够防止在长时间暂停过程中加工头的保护窗被污染而由来自保护窗的反射光而发生故障或光轴调整不充分而激光输出光、反射光照射到并未预期的位置而发生故障或导致瞬间发生故障这一情况。在仅通过低负载驱动无法判断的情况下，也可以尝试在稍高的负载驱动条件下进行驱动。

上述机器学习装置具有以下功能：为了降低上述激光装置中发生故障的频率，参照通过学习获取的各故障所对应的定量性故障发生机制和各定量性故障发生机制所对应的故障的发生频率，输出期望改进的项目的列表。

上述机器学习装置通过上述结构，当通过学习掌握各种故障中的与每个故障对应的定量性发生故障机制时，为了降低故障的发生频率而直到有效的改进点，因此当输出该信息时，得到可提高激光装置的可靠性的有效的知识，从而能够开发出高可靠和长寿命的激光装置。也可以对各改进项目添加分数、优先级。

上述机器学习装置存在于雾服务器上，该雾服务器经由第一网络控制包含多个机器的至少一个单元，该机器至少包含一个上述激光装置。

根据上述机器学习装置，如上所述，通过使存在于用于控制较小规模的单元的雾服务器上，在不会延迟的情况下能够交换激光装置的状态变量的观测、故障避免驱动条件的指令等实时性重要的信息。

上述机器学习装置存在于云服务器上，该云服务器经由第二网络控制雾服务器的至少一个，该雾服务器经由第一网络控制包含多个机器的至少一个单元，该机器包含至少一个上述激光装置。

如上所述，上述机器学习装置存在于具备大规模的记录容量，且能够高速地进行大规模的信号处理的云服务器上，由此能够高速地进行基于神经网络等伴随着机器学习的信号处理。

存在多个上述机器学习装置，在上述多个机器学习装置之间相互交换或共享机器学习的结果。

在上述机器学习装置中，发生故障的频率并非那么高，因此容易花费时间来进行学习，但是根据上述结构，通过交换或共享学习结果，能够加快学习的进展速度。另外，还提高学习精度。

根据本发明，针对存在很多故障模式并且通过以往的方法难以掌握故障发生原因、故障发生条件的高功率激光装置中的故障，参照物理模型，针对检测出的故障，学习包含“什么原因(包含多个)而哪一状态变量(包含多个)变为什么样的值，因此由于什么样的物理现象，哪里(包含多个)受到处于什么样的状态的损伤”这种一系列物理性因果关系的定量性故障发生机制。通过设为这种结构，能够提供以下一种机器学习装置：即使根据较少的故障数据，也能够推定从故障原因至故障状况为止一贯与物理模型匹配的定量性故障发生机制，由此进行学习，另外，使用其学习结果，能够输出用于预防激光装置的故障发生的准确的预防性保全信息。

另外，在通过网络与本发明的机器学习装置相连接的激光装置中，能够提供能够预防故障的发生并且可靠性高的激光装置。

附图说明

图1是表示本发明的第一实施方式的机器学习装置的概念结构的框图，附注了表示通过网络连接的激光装置的概念结构的框图。

图2是表示图1示出的机器学习装置的动作的一例的流程图。

图3是表示图1示出的机器学习装置的动作的其它一例的流程图。

图4是表示本发明的第二实施方式的机器学习装置的概念结构的框图，附注了表示通过网络连接的激光装置的概念结构的框图。

图5是表示图4示出的机器学习装置的动作的一例的流程图。

图6是表示图4示出的机器学习装置的动作的其它一例的流程图。

图7是示意性地示出神经元的模型的图。

图8是示意性地示出将图7示出的神经元进行组合而构成的三层神经网络的图。

图9A和图9B是表示本发明的第三实施方式的机器学习装置的动作的一例的流程图。

图10是示意性地示出以状态变量为坐标轴的二维空间内的故障发生区域以及以状态变量的值为坐标值的点的移动方式的一例的图。

图11是示意性地示出以状态变量为坐标轴的二维空间内的故障发生区域以及以状态变量的值为坐标值的点的移动方式的其它一例的图。

图12A和图12B是表示本发明的第四实施方式的机器学习装置的动作的一例的流程图。

图13是表示本发明的第五实施方式的机器学习装置的动作的一例的流程图。

图14是表示本发明的第六实施方式的机器学习装置的动作的一例的流程图。

图15是本发明的第七实施方式的机器学习装置所输出的定量性故障发生机制的列表格式的一例。

图16是表示本发明的第八实施方式的机器学习装置在网络上的位置、向网络的连接状态的一例的框图。

具体实施方式

以下，参照附图说明本发明所涉及的机器学习装置的实施例。在各附图中，对同一部件附加相同的参照符号。另外，在不同的附图中附加了相同参照符号的部件表示具有相同功能的构成要素。此外，为了容易观察这些附图，适当地变更了这些附图比例尺。

<第一实施方式>

图1是表示本发明的第一实施方式的机器学习装置1的概念结构的框图，示出通过网络3与三台激光装置2相连接的状态。通过表示激光装置的概念结构的框图示出了三台激光装置2中右端的一台激光装置2。

激光装置2具备：激光振荡器4；电源部5，其将驱动电流供给至激光振荡器4；激光光学系统6，其包含加工头，该加工头将从激光振荡器4出射的激光经由光纤照射到作为激光加工对象的工件(未图示)；输出光传感器7，其检测从激光振荡器4出射的激光10的光输出；反射光传感器8，其检测从工件或激光光学系统所包含的透射窗口、光纤连接器的端面等返回至激光振荡器、激光光学系统的反射光；以及控制部9，其输出对电源部5输出与光输出指令相应的电流输出指令等与激光装置2的各部对应的指令，从输出光传感器7接收检测信号等来自激光装置2的各部的信号。这些各个激光装置2的控制部9与经由网络3相连接的机器学习装置1能够交换信息。

另外，控制部9的内部或外部具备存储器(未图示)，记录与包含对应的激光装置2的加工头那样的附属部件的构造、型号、图号、规格等硬件结构有关的信息、包含制造日期、制造批次、制造地点、产品编号、制造条件等的上述激光装置2的制造信息，能够经由网络3输出到机器学习装置1。

此外，也可以在一台激光装置2中包含多个激光振荡器4、电源部5、输出光传感器7、反射光传感器8。例如，也可以由激光光学系统6包含将多个激光进行耦合的光耦合器(组合器)，激光装置2具备：多个电源部5，其分别独立地能够将驱动电流供给至多个激光振荡器4；多个输出光传感器7，其检测与各激光振荡器的光输出进行耦合的激光的光输出；以及多个反射光传感器8，其用于检测返回至激光振荡器和激光光学系统的各部的反射光。

另一方面，机器学习装置1具备：状态观测部13，其经由网络3观测从激光装置2的控制部9输出的、由上述输出光传感器7检测出的光输出的时序数据以及包含上述光输出指令的上述激光装置2内外的状态变量；判断结果取得部12，其针对上述激光装置中的各故障，取得从上述机器学习装置1输出的定量性故障发生机制(＝故障发生的定量性机制)的正确与否的判断结果；学习部11，其接收来自上述状态观测部13的输出和来自上述判断结果取得部12的输出，并将与上述各故障对应的上述定量性故障发生机制和由上述状态观测部13观测到的上述装置的状态变量、由上述判断结果取得部12取得的上述定量性故障发生机制的正确与否的判断结果关联起来进行学习；以及决策部14，其从上述光输出的时序数据与上述光输出指令的对照等检测出上述故障发生时，参照上述学习部11的学习结果，决定应从上述机器学习装置1输出的上述定量性故障发生机制。

由机器学习装置1的状态观测部13进行观测而输出到学习部11的各激光装置的状态变量主要是激光装置2的控制部9向激光装置的各部发出的指令、从激光装置的各部接收的信号、由控制部9记录的信息，具体地说，除了由输出光传感器7检测出的光输出的时序数据和光输出指令以外，还能够包含以下部分：

包含激光装置的加工头的上述那样的硬件结构；

上述驱动条件或上述驱动状况的履历；

上述激光装置的修理履历；

控制上述激光装置的控制软件的内部数据；以及

根据上述输出数据或上述内部数据得到的计算数据等。

此外，在上述输出数据中能够包含来自上述激光装置或上述激光振荡器的光输出、在包含光纤的激光光学系统内与激光输出光相反的方向进行传播的反射光强度、上述激光振荡器的激发光源(excitation light source)即激光二极管模块的驱动电流或驱动电力、上述激光二极管模块或与上述激光二极管模块进行热连接的部位的温度、用于抑制上述激光二极管模块的温度上升的散热片(heatsink)的温度、冷却散热片的制冷剂的种类、特性、温度、流量、压力、对激光装置施加的振动强度、加速度、冲击强度、激光装置的周边空气的温度、湿度、清洁度、含油雾浓度、含浮游粒子浓度。

这样，状态变量这种术语在本说明书中有时用作状态变量群这种意思。此外，检测激光装置2的周边环境的传感器的检测信号也可以不经由控制部9而被观测到。

学习部11在从状态观测部13输出的各激光装置2的状态变量中，在向激光装置2的光输出指令与根据输出光传感器7的检测结果等求出的光输出的差大于预定范围的情况下，在应该控制在预定控制范围内的各传感器的检测结果从预定控制范围偏离的情况下，判断为发生了故障。而且，

学习部11推定从成为上述激光装置的故障发生的诱因的故障原因至直到导致以下情况为止的一系列物理性因果关系的定量性故障发生机制，并将推定出的该定量性故障发生机制从决策部输出：

由上述故障原因引起的上述激光装置的上述状态变量中特定的上述状态变量的值或变化；

随着上述特定的状态变量的上述值或上述变化而发生损伤的物理现象或物理机制；以及

由于上述物理现象或上述物理机制而受损的位置或部件及表示其损伤状态的故障状况。

当判断为发生了故障时，使发生了故障的激光装置2停止而进行修理，调查和确认从机器学习装置1输出的定量性故障发生机制内包含的损伤位置，维修负责人等判断实际损伤的位置、部件、实际损伤状态是否存在与输出的定量性故障发生机制内包含的损伤位置、损伤状态、损伤程度一致或是不一致的点的判断结果通过判断结果取得部12被输出到学习部11。

此外，在机器学习中，本来期望判断也不借助人工而自动地进行，还考虑通过图像传感器等自动地进行判断。但是，通过图像传感器等难以确认所有故障部位的故障状态，如上所述，故障并非是常见现象，通常借助人工进行故障的修理，因此在本发明的机器学习的一环中由借助人工产生的附加工时、处理时间的延迟较少，因此认为借助人工详细地确认故障状况，能够更准确地进行学习。

学习部11接收来自状态观测部13的输出以及来自判断结果取得部12的输出，与由状态观测部13观测的激光装置2的状态变量、从决策部14输出的定量性故障发生机制的推定结果(从判断结果取得部12取得)的正确与否的判断结果关联起来学习与发生的故障对应的定量性故障发生机制。

在本实施方式中示出了应用监督学习的机器学习装置的示例，机器学习装置1还具备记录了带判断结果数据和与定量性故障发生机制相关联的物理模型的带判断结果数据和物理模型记录部15。上述学习部11具备：误差计算部16，其将从上述机器学习装置1输出的定量性故障发生机制与实际确认的故障状况的差异计算为误差；以及学习模型更新部17，其根据计算出的误差来更新作为学习结果的学习模型。

在带判断结果数据和物理模型记录部15中记录有目前为止得到的激光装置的状态变量和针对该状态变量推定出的定量性故障发生机制的正确与否的判断结果成对的带判断结果数据、与故障相关联的物理模型。作为该物理模型，如果设为例如存在以下定量性故障发生机制，则既可以将包含该一系列物理性因果关系的定量性故障发生机制整体记录为物理模型，也可以记录其一部分物理现象即传播由某一反射光传感器检测出的包层(clad)的反射光强度与光纤的温度上升的关系、保护套的点火温度等：在激光加工中附着在工件上的油成分成为油烟而附着于加工头的保护窗，激光在保护窗上反射的成分、即反射光增加到某个瓦数，将在传输光纤上与激光相反方向上传播的反射光在与馈送光纤的融合点散射到包层，围绕包层的保护套的温度上升而超过保护套的点火温度，因此保护套燃烧而光纤温度进一步上升并折射率等物性发生变化而激光的透射率下降，由于激光的吸收而光纤的温度进一步上升，从而纤芯变质(产生光纤熔丝而激光无法在光纤内传播)。

学习部11在参照基于记录在带判断结果数据和物理模型记录部15中的带判断结果数据或所记录的带判断结果数据的学习结果以及物理模型判断为发生了故障时，针对发生故障的激光装置2观测到的状态变量，推定定量性故障发生机制，输出推定结果，取得针对该推定的正确与否判断的结果并进行学习。

此外，带判断结果数据和物理模型记录部15不需要设置于机器学习装置1的内部，还能够通过网络、存储卡等将带判断结果数据提供给学习部11，带判断结果数据和物理模型不需要记录于相同的记录部，也可以记录于不同的记录部。

图2是表示图1示出的机器学习装置的动作的一例的流程图。

如图2所示，在图1示出的机器学习装置1中，当开始学习时，学习部11首先参照记录在带判断结果数据和物理模型记录部15中的带判断结果数据和物理模型来制作初始学习模型(步骤S101)，观测通过网络3与机器学习装置1相连接的各激光装置2的状态变量(步骤S102)。并且，判断是否成为向激光装置2的光输出指令与根据输出光传感器7的检测结果等求出的光输出的差大于预定范围或应该控制在预定控制范围内的各传感器的检测结果从预定控制范围脱离等被认为发生了故障的状态变量(步骤S103)，未判断为发生了故障时，返回至步骤S102而继续观测激光装置2的状态变量。另一方面，在判断为发生了故障的情况下，学习部11参照学习模型与物理模型(步骤S104)，推定从故障原因至故障发生状况为止的一系列定量性故障发生机制(步骤S105)，从决策部14输出推定出的定量性故障发生机制(步骤S106)。

要诊断并修理发生故障的激光装置的人确认故障的发生状况，直接或经由网络3将故障发生状况输入到机器学习装置1的判断结果取得部12(步骤S107)。即使确认故障的发生状况，也存在很多无法确定故障的发生原因的情况，因此输入故障部位或故障部件、故障或损伤状态、例如燃烧、熔化、断开、脱落、断线或者短路等原则上在修理时可确认的内容。

判断结果取得部12取得针对推定结果的判断结果(步骤S108)，输出到学习部11。学习部11判断推定出的定量性故障发生机制内包含的故障发生状况、即发生故障的位置、部件或受损的位置、部件、故障或损伤状态是否与实际确认的故障发生状况一致(步骤S109)。如果存在不一致点，则根据不一致的程度，通过误差计算部16计算学习模型的误差(步骤S110)，学习模型更新部17根据误差更新学习模型(步骤S111)。

接着，判断是否发出了结束机器学习的指令(步骤S112)，在发出了学习结束指令的情况下，结束学习，在未发出学习结束指令的情况下，返回至步骤S102，继续观测经由网络3连接的各激光装置2的状态变量。此外，在步骤S109中，在推定出的定量性故障发生机制内包含的发生故障的位置、部件或受损的位置、部件、故障或损伤状态与实际确认的故障发生状况一致的情况下，直接进入到步骤S112，判断是否发出了结束机器学习的指令。

通过反复进行上述步骤S101～步骤S112，学习部11反复更新学习模型，从而进行学习使得能够根据激光装置2的状态变量推定定量性故障发生机制。

通过学习从故障原因至故障发生状况为止的一系列定量性故障发生机制，与根据状态变量的统计性处理来推定故障原因、故障发生条件的学习方法相比，能够更确切地进行与物理现象、物理机制匹配的精确的推定。另外，参照物理模型，能够排除物理上不合理的学习结果，因此在学习的较初始阶段、即与故障发生有关的数据较少的状况下，能够推定出物理上合理的定量性故障发生机制的概率也提高。

此外，对于激光装置2，通过观测很多状态变量，能够准确地学习与各种故障对应的定量性故障发生机制，因此有可能与故障相关联的状态变量如上所述期望通过尽可能多的状态观测部13进行观测。

图3是表示图1示出的机器学习装置的动作的其它一例的流程图，机器学习装置在针对激光装置中的故障输出的定量性故障发生机制的正确与否的判断中不仅包含由上述激光装置的操作员或维修负责人等确认的故障发生状况与所输出的上述定量性故障发生机制内包含的故障发生状况是否存在同一性，还包含参照物理模型来检验的、确认的故障发生状况与所输出的定量性故障发生机制内包含的物理现象或物理机理是否存在匹配性。

在图3的流程图中，步骤S201～步骤S208与图2的流程图的步骤S101～步骤S108相同。在步骤S209中，学习部11判断推定出的定量性故障发生机制内包含的故障发生状况、即发生故障的位置、部件或受损的位置、部件、故障或损伤状态是否与实际确认的故障发生状况一致(步骤S209)，一致的情况下，直接进入到步骤S214，判断是否发出了结束机器学习的指令，这一点也与图2的流程图的处理相同。与图2的流程图的处理的不同点在于，在步骤S209中，存在推定出的定量性故障发生机制内包含的故障发生状况与实际确认的故障发生状况不一致点的情况下，进入到步骤S210，判断确认的故障发生状况与推定出的定量性故障发生机制是否矛盾。即，判断以下情况：

确认的故障发生状况与推定出的定量性故障发生机制内包含的故障发生状况中，故障发生部位的位置偏离，或

并非烧损状态而是熔解状态，或

故障的发生状况并不一致，但是在温度上升而发生故障这种意义上，确认的故障发生状况不与推定出的定量性故障发生机制内包含的故障发生的物理机制矛盾，

或者所确认的故障发生状况中的故障并不考虑为由推定出的定量性故障发生机制内包含的温度上升引起的故障，而是由振动、冲击导致机器受破坏而引起的故障，与定量性故障发生机制内包含的故障发生机制矛盾，

在判断为所确认的故障发生状态与推定出的定量性故障发生机制内包含的故障发生的物理机理并不矛盾的情况下，误差计算部16认为产生了误差1而计算误差1(步骤S211)，在步骤S213中学习模型更新部17根据误差1的大小来更新学习模型。另一方面，在判断为所确认的故障发生状态与推定出的定量性故障发生机制内包含的故障发生的物理机制矛盾的情况下，误差计算部16认为产生了大于误差1的误差2而计算该误差2(步骤S212)，在步骤S213中学习模型更新部17根据误差2的大小来更新学习模型。

在更新学习模型之后，进入到步骤S214，判断是否发出了结束机器学习的指令，这一点与图2的流程图相同。通过反复进行上述步骤S201～步骤S214，学习部11反复更新学习模型来进行学习，使得能够根据激光装置2的状态变量推定定量性故障发生机制。一个机器学习装置1所具备的学习模型并不限定于一个，还能够具备多个学习模型。

还将与物理现象或物理机制之间是否存在匹配性附加到正确与否的判断中，由此排除与物理模型产生矛盾的推定，对各种故障能够学习合理的定量性故障发生机制。具体地说，如图3的流程图示出的动作例所示，在所确认的故障发生状况不仅与所输出的定量性故障发生机制内包含的故障发生状况不同而且与所输出的定量性故障发生机制内包含的物理现象、物理机制并不匹配而产生矛盾的情况下，判断为定量性故障发生机制的学习结果的误差相对于该故障更大，更新学习模型，由此对各种故障能够学习与物理模型符合的合理的定量性故障发生机制。

学习的结果是，当能够输出与各故障对应的定量性故障发生机制时，在定量性故障发生机制中作为故障发生状况而包含发生故障的位置或部件，因此在发生故障的情况下，能够缩短用于修复故障位置所需的时间。

此外，作为进行监督学习的机器学习器的学习的一例，例如设定以下式(1)示出的预测模型的回归方程，在学习过程中将各状态变量x₁，x₂，x₃，……所求得的值与回归方程拟合时，以得到目的变量y的值的方式调整各系数a₀，a₁，a₂，a₃，……的值来推进学习。此外，学习方法并不限定于此，根据监督学习的算法而不同。

y＝a₀+a₁x₁+a₂x₂+a₃x₃+…+a_nx_n......(I)

作为监督学习的算法，公知神经网络、最小二乘法等各种方法，作为应用于本发明的方法，也可以采用任意监督学习算法。

<第二实施方式>

图4是表示本发明的第二实施方式的机器学习装置101的概念结构的框图，与图1同样地，示出经由网络3与三台激光装置相连接的状态，通过表示激光装置的概念结构的框图示出三台激光装置中右端的一台激光装置。

激光装置2的结构与图1(第一实施方式)的结构相同，在本实施方式中，与图1不同的点在于，示出应用了强化学习的机器学习装置101的示例，学习部111中，代替误差计算部16和学习模型更新部17，具备回报计算部19和价值函数更新部20。另外，该机器学习装置101不具备带判断结果数据和物理模型记录部15，物理模型记录于学习部111。另外，本实施方式的学习部111将上述监督学习的学习结果作为初始状态，通过强化学习来推进学习，在强化学习开始时间点已经具备初始价值函数。

图5是表示图4示出的机器学习装置的动作的一例的流程图。

在图5所记载的流程图示出的处理中，学习部111具备初始学习结果，因此图5的流程图并不存在与图3的流程图的步骤S201(制作初始学习模型这种步骤)对应的步骤，在步骤S303中参照的学习结果并非是学习模型而是价值函数。除了上述情况以外，在图5的流程图中，步骤S301～步骤S309与图3的流程图的步骤S202～步骤S210相同，该步骤以后为不同。即，在步骤S308中，学习部111判断推定出的定量性故障发生机制内包含的故障发生状况、即发生故障的位置、部件，或受损的位置、部件，故障或损伤状态是否与实际确认的故障发生状况一致，在一致的情况下，回报计算部19设定正的回报(回报1)(步骤S310)，在步骤S313中价值函数更新部20根据回报来更新价值函数。

接着，判断是否发出了结束机器学习的指令(步骤S314)，在发出了学习结束指令的情况下，结束学习，在并未发出学习结束指令的情况下，返回至步骤S301，继续观测经由网络3连接的各激光装置2的状态变量。

在步骤S308中，在学习部111判断为推定出的定量性故障发生机制内包含的故障发生状况、即发生故障的位置、部件，或受损的位置、部件，故障或损伤状态与实际确认的故障发生状况并不一致的情况下，进入到步骤S309。然后，在步骤S309中，与图3的流程图的步骤S210同样地，在所确认的故障发生状况与推定出的定量性故障发生机制内包含的故障发生状况并不一致的状况下，判断确认的故障发生状况是否与推定出的定量性故障发生机制内包含的故障发生机制矛盾。在判断为所确认的发生故障状态与推定出的定量性故障发生机制内包含的故障发生的物理机制并不矛盾的情况下，回报计算部19设定较小的负的回报(回报2)(步骤S311)，价值函数更新部20根据回报来更新价值函数(步骤S313)。另一方面，在步骤S309中，在判断为所确认的故障发生状态与推定出的定量性故障发生机制内包含的故障发生的物理机制矛盾的情况下，回报计算部19设定较大的负的回报(回报3)(步骤S312)。

然后，在下一步骤S313中，在根据由价值函数更新部20设定的回报来更新价值函数之后进入到步骤S314，判断是否发出了结束机器学习的指令。在发出了学习结束指令的情况下，结束学习，在并未发出学习结束指令的情况下，返回至步骤S301，观测经由网络3连接的各激光装置2的状态变量，继续进行学习。

在此，上述回报1、回报2、回报3具有回报3<回报2<0<回报1的关系。通过反复进行上述步骤S301～步骤S314，学习部111反复更新价值函数并进行学习，使得根据激光装置2的状态变量能够推定定量性故障发生机制。

机器学习装置101在学习部111检测出激光装置2中的故障时，对该故障，通过决策部14不仅输出单一第一候选的定量性故障发生机制，还输出第二候选的定量性故障发生机制、第三候选的定量性故障发生机制等多个定量性故障发生机制。另一方面，回报计算部19在对各候选的定量性故障发生机制设定正或负的回报时，以定量性故障发生机制的候选顺序越是上位则设定绝对值相对较大的回报的方式进行动作。

在图6的流程图中，步骤S401～步骤S407与图5的流程图的步骤S301～步骤S307相同。接着步骤S407，在将计数器的值(m)复位至1(步骤S408)之后，学习部111判断实际确认的故障发生状况与推定出的第m候选(最初为m＝1因此第一候选)的定量性故障发生机制内包含的故障发生状况是否一致(步骤S409)。在一致的情况下，回报计算部19设定正的回报(+Am)(步骤S410)，价值函数更新部20根据所设定的回报，更新价值函数(步骤S416)，判断是否发出了结束学习的指令(步骤S417)，在发出了学习结束指令的情况下，结束学习，在并未发出学习结束指令的情况下，返回至步骤S401，继续进行学习。

在步骤S409中，在判定为实际确认的故障发生状况与推定出的第m候选(最初为m＝1因此第一候选)的定量性故障发生机制内包含的故障发生状况并不一致的情况下，与图5的步骤S309同样地，判断所确认的故障发生状况与推定出的定量性故障发生机制内包含的故障发生机制是否矛盾(步骤S411)。在判断为所确认的故障发生状态与推定出的定量性故障发生机制内包含的故障发生的物理机制并不矛盾的情况下，回报计算部19设定负的回报(-Bm)(步骤S412)，判断计数器的值(m)是否小于所设定的候选数(n)(步骤S414)，如果m<n，则所确认的故障发生状况与推定出的定量性故障发生机制内包含的故障发生状况尚未一致并且仍然残留推定出的定量性故障发生机制的候选，因此将计数器的值仅增加+1(步骤S415)，返回至步骤S409，判断推定出的定量性故障发生机制中的下一顺序的候选的定量性故障发生机制内包含的故障发生状况是否与实际确认的故障发生状况一致。在步骤S411中，在判断为所确认的故障发生状态与推定出的定量性故障发生机制内包含的故障发生的物理机制矛盾的情况下，回报计算部19设定负的回报(-Cm)(步骤S413)，进入到步骤S414。在步骤S414中，在判断为并非m<n的情况下，所确认的故障发生状况与推定出的定量性故障发生机制内包含的故障发生状况尚未一致，但是并不残留推定出的定量性故障发生机制的候选，因此进入到步骤S416，价值函数更新部20根据由回报计算部19设定的回报的合计值，更新价值函数(步骤S416)。

然后，判断是否发出了结束学习的指令(步骤S417)，在发出了学习结束指令的情况下，结束学习，在并未发出学习结束指令的情况下，返回至步骤S401，继续进行学习。通过反复进行上述步骤S401～步骤S417，学习部111反复更新价值函数来进行学习，使得根据激光装置2的状态变量能够推定定量性故障发生机制。关于价值函数，一个机器学习装置101也能够具备多个价值函数。

在此，Am、Bm、Cm具有A1>A2>···Am>···>An>0，B1>B2>···>Bm>···>Bn>0，C1>C2>···>Cm>···>Cn>0，Bm<Cm的关系。其中，在上述动作中，也可以将设定为负的回报(-Bm)之处设定为正的回报(Bm)。在该情况下，将Am，Bm，Cm设定为A1>A2>···Am>···>An>0，B1>B2>···>Bm>···>Bn>0，C1>C2>···>Cm>···>Cn>0，Am>Bm的关系成立即可。另外，具体地说，例如也可以将Am、Bm、Cm的值设定为Am＝A1/m，Bm＝B1/m，Cm＝C1/m等。

如上所述，在本实施方式中，将通过监督学习对各种故障所对应的定量性故障发生机制进行机器学习而得的结果作为初始状态而进行强化学习，由此能够使学习进一步加深。所确认的故障发生状况与所输出的定量性故障发生机制内包含的故障发生状况不同，而与所输出的定量性故障发生机制内包含的物理现象、物理机制并不匹配而矛盾的情况下，设定更大的负的回报，由此对各种故障能够学习符合物理模型的更合理的定量性故障发生机制。

在本实施方式中，也与第一实施方式同样地，学习的结果是，当能够输出与各故障对应的定量性故障发生机制时，在定量性故障发生机制中作为故障发生状况而包含发生故障的位置或部件，因此起到以下效果：在发生故障的情况下，能够缩短用于修复故障位置所需的时间。

另外，特别是，在如图6的流程图所示进行动作的情况下，能够有效地使用较少的故障发生数据来推进学习，即使第一候选的定量性故障发生机制内包含的故障位置或故障部件不正确，也能够检查紧接着下一个候选的定量性故障发生机制内包含的故障位置或故障部件，因此起到以下效果：能够降低由于故障位置未知而恢复费时这种问题的发生概率。

此外，在应用于本实施方式的强化学习中，不仅学习判断、分类，还学习行为，由此根据行为给予环境的相互作用学习适当的行为、即学习用于使将来得到的回报最大的学习方法，例如后文中所述，输出故障避免数据的结果是，示出以下情况：得到激光装置能够避免或无法避免由反射光引起的故障这种结果，能够通过强化学习获得对未来带来影响的行为。

价值函数更新部20使用所谓Q学习能够进行强化学习。其中，强化学习的方法并不限定于Q学习。Q学习是在某种环境状态s下学习用于选择行为a的价值Q(s，a)的方法，在某种状态s下，只要将价值Q(s，a)最高的行为a选择为最佳行为即可。但是，最初，关于状态s与行为a的组合，价值Q(s，a)的正确的值完全未知，因此在某种状态s下选择各种行为a，对此时的行为a赋予回报。由此，选择更佳行为、即学习正确的价值Q(s，a)。

并且，行为的结果是，将将来得到的回报的合计最大化，因此最终目标是成为Q(s，a)＝E[Σ(γ_t)r_t]。在此，E[]表示期待值，t为时刻，γ为后述的被称为折扣率的参数，r_t为时刻t的回报，Σ为时刻t的合计。该式的期待值为按照最佳行为而状态变化时求得的，该值是未知的，因此一边搜索一边学习。例如能够通过以下式(2)表示这种价值Q(s，a)的更新式。即，上述价值函数更新部使用以下式(2)更新价值函数Q(s_t，a_t)。

其中，s_t表示时刻t的环境的状态，a_t表示时刻t的行为。通过行为a_t，状态变化为s_t+1。r_t+1表示根据该状态的变化而得到的回报。另外，附加max的项为在状态s_t+1下将选择此时已知的Q值最高的行为a的情况下的Q值乘以γ而得到的值。在此，γ为0<γ≤1的参数，被称为折扣率。另外，α为学习系数，设为0<α≤1的范围。

上述式(2)表示试行a_t的结果是根据返回的回报r_t+1更新状态s下的行为a_t的评价值Q(s_t，a_t)的方法。即，示出以下情况：如果与状态s下的行为a的评价值Q(s_t，a_t)相比，回报r_t+1与行为a的下一状态下的最佳行为max a的评价值Q(s_t+1，max a_t+1)的合计更大，则使Q(s_t，a_t)变大，相反地如果小，则使Q(s_t，a_t)变小。也就是说，使某种状态下的某一行为的价值接近作为结果立即返回的回报以及该行为的下一状态下的最佳行为的价值。

在此，Q(s，a)在计算机上的表现方法有对所有状态行为对(s，a)将其值保持为行为价值表的方法以及准备使Q(s，a)近似的函数的方法。在后一方法中，通过随机梯度下降法等方法来调整近似函数的参数，由此能够实现上述式(2)。此外，作为近似函数能够使用神经网络。神经网络由模拟神经元的模型的运算装置和存储器等构成。

如上所述，作为监督学习的学习算法、强化学习的价值函数的近似算法，能够使用神经网络，因此上述机器学习装置优选具有神经网络。

图7是示意性地示出神经元的模型的图，图8是示意性地示出将图7示出的神经元进行组合而构成的三层神经网络的图。神经网络由模拟图7示出的神经元的模型的运算装置和存储器等构成。神经元输出对多个输入x的输出(结果)y。将各输入x(x₁～x₃)乘以与该输入x对应的权重w(w₁～w₃)，神经元输出通过以下式(3)表现的结果y。此外，输入x、结果y以及权重w均为向量。

其中，θ为偏压，f_k为激活函数。

如图8所示，从神经网络的左侧输入多个输入x(x₁～x₃)，从右侧输出结果y(y₁～y₃)。输入x₁～x₃将三个神经元N₁₁～N₁₃分别乘以对应的权重而输入。将这些输入进行乘法运算的权重归纳地标记为w₁。

神经元N₁₁～N₁₃分别输出z₁₁～z₁₃。在图8中，这些z₁₁～z₁₃被归纳地标记为特征向量z₁，能够将输入向量的特征量视为提取出的向量。该特征向量z₁为权重w₁与权重w₂之间的特征向量。z₁₁～z₁₃将两个神经元N₂₁和N₂₂分别乘以对应的权重而输入。将这些特征向量进行乘法运算的权重被归纳地标记为w₂。神经元N₂₁、N₂₂分别输出z₂₁、z₂₂。在图8中，这些z₂₁、z₂₂被归纳地标记为特征向量z₂。该特征向量z₂为权重w₂与权重w₃之间的特征向量。z₂₁、z₂₂将三个神经元N₃₁～N₃₃分别乘以对应的权重而输入。将这些特征向量乘法运算的权重被归纳地标记为w₃。

最后，神经元N₃₁～N₃₃分别输出结果y₁～y₃。神经网络的动作存在学习模式和价值预测模式，在学习模式中，使用学习数据集来学习权重w，使用该参数，在预测模式中，对激光加工条件数据的输出进行行为判断。在此，在价值预测模式中实际输出定量性故障发生机制，将得到的数据立即进行学习，使学习结果反映到下一行为的在线学习也使用预先收集的数据群来进行归纳的学习，以后还能够一直进行通过该参数进行价值预测模式的批量学习。每次数据某种程度上累积时还能够插入学习模式。

另外，权重w₁～w₃能够通过反向传播算法(Backpropagation)进行学习。此外，误差信息从右侧进入而流向左侧。反向传播算法是针对各神经元将各权重进行调整(学习)使得减小输入了输入x时的输出y与实际输出y(监督)的差分的方法。

图8的神经网络的中间层(隐藏层)为一层，但是还能够设为两层以上，在中间层为两层以上的情况下被称为深层学习。

以上，简单地说明了监督学习与强化学习的学习方法，但是应用于本发明的机器学习方法并不限定于这些方法，能够应用可使用于机器学习装置的方法即“监督学习”、“非监督学习”、“半监督学习”以及“强化学习”等各种方法。

<第三实施方式>

根据该流程图的动作，通过本发明的第一实施方式的监督学习进行学习的机器学习装置1还具有作为预防保全装置的以下功能：参照与通过学习掌握的各种故障中的各故障对应的定量性故障发生机制，经由网络3连接为相互可信息通信的状态的任一个激光装置2中的任一状态变量的值或以多个任一状态变量的值为坐标值的点比预定范围更接近因任一个定量性故障发生机制发生故障的故障发生区域时，对该激光装置2的控制部9，指令用于预防故障发生的驱动条件即故障避免驱动条件。

此外，在图10中示意性地示出定义为将激光装置2中的任一状态变量的值或多个上述任一状态变量的值设为坐标值的点比预定范围更接近发生故障的故障发生区域是什么意思。

在图10中，示意性地示出在激光装置2的状态变量中将α与β这两种状态变量的值作为坐标值的点接近二维故障发生区域的样子，t_i表示时间，与t₁相比t₂表示以后的时间。

在图10中，以实线为边界远离原点(α＝β＝0的点)的区域为故障发生区域，以实线为边界接近原点的区域为故障发生区域外(＝不发生故障的区域)，被实线和一点划线夹住的区域表示比预定范围更接近故障发生区域的区域。当将α与β的值作为坐标值的点从原点侧超过一点划线时，判断为比预定范围更接近故障发生区域。在图10的示例中，当接近故障发生区域至80％时，认为比预定范围更接近故障发生区域。另外，在图10中，标记在故障发生区域内的虚线表示故障状态、程度的边界线，并示出如果将α与β的值作为坐标值的点稍微进入到故障发生区域内，则故障部位的破损状态为溶解的程度，但是随着远离原点而从烧损成为蒸发和表示更高温这一情况的故障状态。

此外，在由状态观测部13取得的激光装置2的状态变量中还包含时序数据，因此图10中的变量的α、β可以是时间，假设将横轴设为时间，则成为如图11所示的图，如果是短时间，则γ这种状态变量的值大到某种程度也不会发生故障，但是当该状态持续长时间时进入到故障发生区域，因此如果在短时间内转变为故障避免驱动条件则能够避免故障。作为具体的故障避免驱动条件，考虑降低激光输出或使激光器振荡停止等，但是并不限定于此，也可以使冷却激光振荡器的冷却机的冷却能力上升等。图11的实线、虚线、一点划线、t1、t2的意思与图10相同。在机器学习装置1、101通过学习掌握的与各故障对应的定量性故障发生机制中还包含图10、图11的信息。

其中，为了使说明简单，在图10、图11中示出不取负的值的状态变量的情况，但是划定故障发生区域的状态变量当然也可以是可取负的值的状态变量。另外，将状态变量的值作为坐标值的点为虚拟的点，不仅意味着图10、图11的二维面上的点，还可以是一维线上的点，也可以是三维空间内的点，也可以是四维、五维等虚拟空间内的点。对应的故障发生区域也被划定为与将状态变量的值作为坐标值的点相同维度的空间内。

返回至图9A和图9B的流程图的说明，当开始进行学习时，首先，学习部11参照记录在带判断结果数据和物理模型记录部15中的带判断结果数据和物理模型来制作初始学习模型(步骤S501)，接着，确认故障避免功能被设定为打开还是关闭(步骤S502)，在将用于计算经过时间的计时器复位之后，重新使用计时器开始进行经过时间的计数(步骤S503)。此外，故障避免功能的打开关闭设定可以对每个激光装置进行设定，也可以进行仅将界限特性试验用激光装置设定为关闭故障避免功能而将其它激光装置设定为打开故障避免功能等的设定。

接着，观测经由网络3与机器学习装置1连接的各激光装置2的状态变量(步骤S504)，判断故障避免功能的打开关闭设定状态(步骤S505)。判断为将故障避免功能设定为关闭的激光装置2不进行故障避免动作，但是，如上所述，参照目前为止的学习结果，判断激光装置2的状态变量的值或将多个状态变量的值作为坐标值的点是否进入到故障发生区域内(步骤S506)。在步骤S506中，在判断为激光装置2的状态变量的值或将多个状态变量的值作为坐标值的点并未进入到故障发生区域内的情况下，判断是否成为向激光装置2的光输出指令与根据输出光传感器7的检测结果等求出的光输出的差变得大于预定范围、应该控制在预定控制范围内的各传感器的检测结果从预定控制范围脱离等被认为发生故障的状态变量(步骤S507)。在判断为并未发生故障的情况下，进入到步骤S519，在判断为发生了故障的情况下，不论判断为激光装置2的状态变量的值或将状态变量的值设为坐标值的多个点并未进入到故障发生区域内，判断为发生了故障，因此误差计算部16计算误差3作为在学习结果(学习模型)中产生了误差(步骤S508)。接着，参照目前为止的学习结果和所记录的物理模型，推定包括从故障原因至故障发生状况为止的一系列内容的定量性故障发生机制(步骤S509)，从决策部14输出推定出的定量性故障发生机制(步骤S512)。

在步骤S506中，即使在判断为激光装置2的状态变量的值或将状态变量的值作为坐标值的多个点进入到故障发生区域内的情况下，也与步骤S507同样地，判断是否成为被认为发生故障的状态变量(步骤S510)，在判断为发生了故障的情况下，判断为激光装置2的状态变量的值或将多个状态变量的值作为坐标值的点进入到故障发生区域内，判断为发生了故障，因此在学习结果中并未识别出误差，因此直接进入到步骤S509。在步骤S510中，在判断为并未发生故障的情况下，不论判断为激光装置2的状态变量的值或将状态变量的值作为坐标值的多个点进入到故障发生区域内，也判断为并未发生故障，因此误差计算部16计算误差4作为在学习模型中产生了误差(步骤S511)，而进入到步骤S519。

图9A的步骤S512～步骤S518与图3的流程图的步骤S206～步骤S212大致相同，输入由激光装置2的管理负责人、维修负责人等确认的故障发生状况(步骤S513)。判断结果取得部12取得确认的故障发生状况作为推定出的定量性故障发生机制，输出到学习部11(步骤S514)。学习部11判断推定出的定量性故障发生机制内包含的故障发生状况、即发生故障的位置、部件，或受损的位置、部件，故障或损伤状态是否与实际确认的故障发生状况一致(步骤S515)，在一致的情况下，进入到步骤S519，在推定出的定量性故障发生机制内包含的故障发生状况存在与实际确认的故障发生状况不一致的情况下，进入到步骤S516，判断所确认的故障发生状况与推定出的定量性故障发生机制是否矛盾。如上所述，所确认的故障发生状况与推定出的定量性故障发生机制内包含的故障发生状况在故障发生部位的位置偏离或并非处于烧损状态而是熔解状态或故障的发生状况并未一致，但由于温度上升而发生故障这种意义上，判断所确认的故障发生状况与推定出的定量性故障发生机制内包含的故障发生的物理机制是否不矛盾，或者所确认的故障发生状况并不认为是由推定出的定量性故障发生机制内包含的温度上升引起的故障，而是由振动、冲击导致的机器受破坏引起的故障，与定量性故障发生机制内包含的故障发生机制是否矛盾。在判断为所确认的故障发生状态与推定出的定量性故障发生机制内包含的故障发生的物理机制并不矛盾的情况下，误差计算部16计算为产生了误差1(步骤S517)，进入到步骤S519。另一方面，在步骤S516中，在判断为所确认的故障发生状态与推定出的定量性故障发生机制内包含的故障发生的物理机制矛盾的情况下，误差计算部16计算为产生了大于误差1的误差2(步骤S518)，进入到步骤S519。

另一方面，在步骤S505中，对于判断为将故障避免功能设定为打开的激光装置2，判断任一状态变量的值或多个将任一状态变量的值作为坐标值的点是否比预定范围更接近因任一个定量性故障发生机制发生故障的故障发生区域(步骤S521)。在判断为更接近预定范围的情况下，机器学习装置1为了避免激光装置2的故障，对激光装置2进行指令使得将驱动条件切换为故障避免驱动条件(步骤S522)。之后，再次观测激光装置2的状态变量(步骤S523)，判断是否成为被认为发生了故障的状态变量(步骤S524)。如果学习结果正确，并且正确地判断任一状态变量的值或多个将任一状态变量的值作为坐标值的点比预定范围更接近因任一个定量性故障发生机制发生故障的故障发生区域这一情况，对激光装置2进行指令的故障避免驱动条件为适当，则不应该发生故障。尽管如此，在判断为发生了故障的情况下，示出以下情况：在学习结果中存在误差，任一状态变量的值或多个将任一状态变量的值作为坐标值的点比预定范围更接近因任一个定量性故障发生机制发生故障的故障发生区域这一情况未被正确地判断或所指令的故障避免驱动条件不适当。因而，误差计算部16计算误差5(步骤S525)，返回至步骤S509，参照学习模型和物理模型，进入到用于推定定量性故障发生机制的流程。在步骤S524中判断为并未发生故障的情况下，正确地进行故障避免，进入到步骤S519。

另一方面，在步骤S521中判断为任一状态变量的值或多个将任一状态变量的值作为坐标值的点并不比预定范围更接近因任一个定量性故障发生机制发生故障的故障发生区域的情况下，再次观测激光装置2的状态变量(步骤S526)，判断是否成为被认为发生了故障的状态变量(步骤S527)。如果学习结果正确并且任一状态变量的值或多个将任一状态变量的值作为坐标值的点并不比预定范围更接近因任一个定量性故障发生机制发生故障的故障发生区域这一情况被正确地判断，则不应该发生故障。尽管如此，在判断为发生了故障的情况下，示出以下情况：在学习结果中存在误差，任一状态变量的值或多个将任一状态变量的值作为坐标值的点比预定范围更接近因任一个定量性故障发生机制发生故障的故障发生区域这一情况并未被正确地判断。因而，由误差计算部16计算误差6(步骤S528)，与上述情况同样地，返回至步骤S509，参照学习模型与物理模型，进入到用于推定定量性故障发生机制的流程。在步骤S527中判断为并未发生故障的情况下，判断为状态变量的值或多个将状态变量的值作为坐标值的点并不比预定范围更接近因任一个定量性故障发生机制发生故障的故障发生区域，而判断为并未发生故障，因此在学习结果中并未识别出误差，进入到步骤S519。

如上所述，上述所有流程合流到步骤S519，在步骤S519中判断是否存在由误差计算部16计算出的误差(正确地，在更新学习模型之后重新计算出的误差)，在判断为计算出的误差为至少一个的情况下，根据计算出的误差大小，学习模型更新部17更新学习模型(步骤S520)。然后，判断是否超过了由测量经过时间的计时器设定的时间(步骤S529)。在步骤S519中判断为不存在计算出的误差的情况下，跳过学习模型的更新，进入到步骤S529。在步骤S529中判断为并未超过所设定的时间的情况下，判断是否发出了结束机器学习的指令(步骤S530)，在发出了学习结束指令的情况下，结束学习，在并未发出学习结束指令的情况下，返回至步骤S504，继续观测激光装置2的状态变量。在步骤S529中判断为超过了所设定的时间的情况下，返回至步骤S502，确认故障避免功能是设定为打开还是设定为关闭，在使计时器复位之后，使用计时器重新开始经过时间的计数(步骤S503)。这样，使用计时器测量经过时间是为了定期地确认故障避免功能的打开关闭的设定状态是否发生未变化。

如上所述，在计算出至少一个误差的情况下，在步骤S520中，学习模型更新部17根据计算出的该误差的大小来更新学习模型。在该情况下，各误差的大小除了具有上述的误差2>误差1的关系外，还可以具有以下关系。首先，误差3和误差4为故障发生区域与故障发生区域外的边界线的位置精度的问题，计算为在步骤S506中使用于判断的、与故障有关的状态变量的值或将与故障有关的多个状态变量的值作为坐标值的点越是从该边界线远离则误差越大。并且，如果在步骤S506中使用于判断的、与故障有关的状态变量的值或将与故障有关的多个状态变量的值作为坐标值的点与该边界线的间隔相同，则误差3与误差4的大小也可以是相同的。误差5察觉到与故障有关的状态变量的值或将与故障有关的多个状态变量的值作为坐标值的点比预定范围更接近故障发生区域这一情况，指令了故障避免驱动条件，但是发生了故障，因此故障避免驱动条件也许是不适当的。但是，在推定为比上述故障发生区域与故障发生区域外的边界线更靠安全侧的状态变量的值或将多个状态变量的值作为坐标值的点的位置处发生了故障，因此误差5通常也可以计算为大于误差3、误差4。

另一方面，误差6为对应于未注意到与故障有关的状态变量的值或将多个状态变量的值作为坐标值的点比预定范围更接近因任一个定量性故障发生机制发生故障的故障发生区域时发生了故障的这一结果对应误差，因此误差6也可以计算为比误差5更大的误差。

通过反复进行上述步骤S501～步骤S530，机器学习装置1反复更新学习模型来进行学习，使得根据激光装置2的状态变量能够推定定量性故障发生机制，并且参照学习结果，在处于激光装置可能发生故障的状态时能够对激光装置指令精确的故障避免驱动条件。其结果，能够逐渐地减少激光装置中的故障，从而能够实现可靠性高的激光装置。

<第四实施方式>

该实施方式的机器学习装置相当于对通过上述第二实施方式的强化学习进行学习的机器学习装置101(图4)追加了指令用于预防故障发生的驱动条件(故障避免驱动条件)的预防保全装置。即，根据本实施方式的机器学习装置，参照与通过学习掌握的各故障对应的定量性故障发生机制，在经由网络3相互可信息通信地连接的状态的任一个激光装置2中的任一状态变量的值或将多个任一状态变量的值作为坐标值的点比预定范围更接近因任一个定量性故障发生机制发生故障的故障发生区域时，机器学习装置对该激光装置2的控制部9指令将驱动条件设为用于预防故障发生的驱动条件(即故障避免驱动条件)。

在图12A和图12B的流程图中，步骤S601～步骤606与图9A的流程图的步骤S502～步骤S507大致相同，当开始进行学习时，确认故障避免功能被设定为打开还是设定为关闭(步骤S601)，使用于测量经过时间的计时器复位，之后启动计时器而开始进行经过时间的计数(步骤S602)。此外，与第三实施方式同样地，故障避免功能的打开/关闭设定可以对每个激光装置设定，也可以进行仅将界限特性试验用激光装置的故障避免功能设定为关闭，将其它激光装置的故障避免功能设定为打开等设定。

接着，观测经由网络3与机器学习装置101相连接的各激光装置2的状态变量(步骤S603)，判断故障避免功能的打开关闭的设定状态(步骤S604)。对于判断为故障避免功能被设定为关闭的激光装置2不进行故障避免动作，但是，如上所述，参照目前为止的学习结果(价值函数)，判断激光装置2的状态变量的值或将多个状态变量的值作为坐标值的点是否进入到故障发生区域内(步骤S605)。在判断为激光装置2的状态变量的值或将多个状态变量的值作为坐标值的点并未进入到故障发生区域内的情况下，判断是否成为向激光装置2的光输出指令与根据输出光传感器7的检测结果等求出的光输出的差变得大于预定范围、应该控制在预定控制范围内的各传感器的检测结果从预定控制范围脱离等被认为发生了故障的状态变量(步骤S606)。在判断为并未发生故障的情况下，判断为状态变量的值或将多个状态变量的值作为坐标值的点并未进入到故障发生区域内，不特别进行回报的设定而进入到步骤S620。其理由在于，在步骤S606中判断为并未发生故障的情况下，处于并未发生故障这种通常的状态，因此在机器学习装置101正确地识别激光装置2的状态这种意义上也可以设定极小的正的回报，但是对于故障避免功能被设定为关闭的激光装置大部分时间处于这种状态，因此结果是设定为过剩的正的回报的可能性较高。

另一方面，在步骤S606中判断为发生了故障的情况下，不论判断为激光装置2的状态变量的值或将多个状态变量的值作为坐标值的点并未进入到故障发生区域内，而判断为发生了故障，因此回报计算部19设定负的回报(-D的回报)(步骤S607)。

接着，参照目前为止的学习结果与记录的物理模型，推定包含从故障原因至故障发生状况为止的一系列内容的定量性故障发生机制(步骤608)，从决策部14输出推定出的定量性故障发生机制(步骤S612)。在步骤S605中判断为激光装置2的状态变量的值或将多个状态变量的值作为坐标值的点进入到故障发生区域内的情况下，也与步骤S606同样地，判断是否成为被认为发生故障的状态变量(步骤S609)，在判断为发生了故障的情况下，判断为激光装置2的状态变量的值或将多个状态变量的值作为坐标值的点进入到故障发生区域内，而判断为发生了故障，因此推定结果为正解，从而在回报计算部19设定正的回报(+E的回报)之后(步骤S610)，进入到步骤S608。

另一方面，在步骤S609中判断为并未发生故障的情况下，不论判断为激光装置2的状态变量的值或将多个状态变量的值作为坐标值的点进入到故障发生区域内，而判断为并未发生故障，因此回报计算部19设定负的回报(-F的回报)(步骤S611)，进入到步骤S620。

图12A的步骤S612～步骤S619类似于图5的流程图的步骤S305～步骤S312。

输入由激光装置2的管理负责人、维修负责人等确认的故障发生状况(步骤S613)，判断结果取得部12取得所确认的故障发生状况作为针对推定出的定量性故障发生机制的判断结果，输出到学习部111(步骤S614)。学习部111判断推定出的定量性故障发生机制内包含的故障发生状况、即发生故障的位置、部件或受损的位置、部件、故障或损伤状态是否与实际确认的故障发生状况一致(步骤S615)。在一致的情况下，回报计算部19设定正的回报(+G的回报)(步骤S616)，进入到步骤S620。

另一方面，在步骤S615中判断为推定出的定量性故障发生机制内包含的故障发生状况存在与实际确认的故障发生状况不一致点的情况下，进入到步骤S617，判断所确认的故障发生状况与推定出的定量性故障发生机制是否产生矛盾。如上所述，所确认的故障发生状况与推定出的定量性故障发生机制内包含的故障发生状况判断如下情况：

故障发生部位的位置偏离或并非是烧损状态而是熔解状态或故障的发生状况并不一致，但由温度上升而发生故障这种意义上，所确认的故障发生状况与推定出的定量性故障发生机制内包含的故障发生的物理机制是否不产生矛盾，或者

所确认的故障发生状况并不考虑为由推定出的定量性故障发生机制内包含的温度上升引起的故障，而是由振动、冲击导致的机器被破坏引起的故障，与定量性故障发生机制内包含的故障发生机制是否产生矛盾(步骤S617)。在判断为所确认的故障发生状态与推定出的定量性故障发生机制内包含的故障发生的物理机制并不产生矛盾的情况下，回报计算部19设定较小的负的回报(-H的回报)作为推定出的定量性故障发生机制与所确认的故障发生状况局部符合，(步骤S618)，进入到步骤S620。另一方面，在步骤S617中判断为所确认的故障发生状态与推定出的定量性故障发生机制内包含的故障发生的物理机制也产生矛盾的情况下，回报计算部19设定比上述-H的回报绝对值较大的负的回报(-I的回报)(步骤S619)，进入到步骤S620。

另一方面，在步骤S604中，对于判断为故障避免功能被设定为打开的激光装置2，判断任一状态变量的值或多个将任一状态变量的值作为坐标值的点是否比预定范围更接近因任一个定量性故障发生机制发生故障的故障发生区域(步骤S622)。在判断为比预定范围更接近的情况下，机器学习装置101为了避免激光装置2的故障，对激光装置2进行指令，使得将驱动条件切换为故障避免驱动条件(步骤S623)。之后，再次观测激光装置2的状态变量(步骤S624)，判断是否成为被认为发生故障的状态变量(步骤S625)。如果学习结果正确，并且任一状态变量的值或多个将任一状态变量的值作为坐标值的点比预定范围更接近因任一个定量性故障发生机制发生故障的故障发生区域这一情况被正确地判断，而对激光装置2进行指令的故障避免驱动条件为适当，则不应该发生故障。另一方面，判断为发生了故障的情况表示任一状态变量的值或多个将任一状态变量的值作为坐标值的点比预定范围更接近因任一个定量性故障发生机制发生故障的故障发生区域这一情况未被正确地判断或指令的故障避免驱动条件不适当，因此回报计算部19设定负的回报(-J的回报)(步骤S626)。然后，返回至步骤S608，参照学习结果和物理模型，进入到用于推定定量性故障发生机制的流程。另一方面，在步骤S625中判断为并未发生故障的情况下，正确地进行了故障避免，因此回报计算部19设定正的回报(+K的回报)(步骤S627)，进入到步骤S620。

另一方面，在步骤S622中判断为任一状态变量的值或多个将任一状态变量的值作为坐标值的点并不比预定范围更接近因任一个定量性故障发生机制发生故障的故障发生区域的情况下，再次观测激光装置2的状态变量(步骤S628)，判断是否成为被认为发生故障的状态变量(步骤S629)。如果学习结果正确，并且任一状态变量的值或多个将任一状态变量的值作为坐标值的点并不比预定范围更接近因任一个定量性故障发生机制发生故障的故障发生区域这一情况被正确地判断，则不应该发生故障。另一方面，在判断为发生了故障的情况下，回报计算部19设定负的回报(-L的回报)(步骤S630)，返回至步骤S608，参照学习结果和物理模型，进入到用于推定定量性故障发生机制的流程。

在步骤S629中，判断为并未发生故障的情况下，判断为状态变量的值或多个将状态变量的值作为坐标值的点并不比预定范围更接近因任一个定量性故障发生机制发生故障的故障发生区域，处于并未发生故障这种通常的状态。在该情况下，在机器学习装置101正确地识别激光装置2的状态这种意义上也可以设定极小的正的回报，但是故障避免功能被设定为打开的激光装置大部分时间处于这种状态，因此结果是设定过剩的正的回报的可能性高，因此在本实施方式中，不特别进行回报的设定，而进入到步骤S620。

如上所述，与上述回报的设定有关的所有流程合流到步骤S620，在步骤S620中，判断是否存在由回报计算部19设定的回报(正确地，在更新价值函数之后重新设定的回报)，在判断为所设定的回报为至少一个的情况下，价值函数更新部20根据所设定的回报，更新价值函数(步骤S621)。然后，判断在步骤S602中开始计时的、测量经过时间的计时器是否超过了预先设定的时间(步骤S631)。

在判断为并未超过所设定的时间的情况下，判断是否发出结束机器学习的指令(步骤S632)。在发出了学习结束指令的情况下，结束学习，在并未发出学习结束指令的情况下，返回至步骤S603，继续观测激光装置2的状态变量。

在步骤S631中判断为计时器超过了预先设定的时间的情况下，返回至步骤S601，确认故障避免功能被设定为打开还是设定为关闭，在使计时器复位之后，使用计时器重新开始计数经过时间(步骤S602)。这样，使用计时器测量经过时间是因为如上所述，定期地确认故障避免功能的打开关闭的设定状态是否未发生变化。

此外，在步骤S607、步骤S610、步骤S626、步骤S630中设定回报之后，返回至步骤S608，参照学习结果和物理模型，在进入到用于推定定量性故障发生机制的流程的情况下，之后，进一步设定+G的回报或-H的回报或-I的回报，但是在该情况下，例如在首先设定-D的回报，之后设定+G的回报的情况下，假定设定了其和的(-D+G)的回报，在步骤S621中，价值函数更新部20也可以根据(-D+G)的回报来更新价值函数。此外，在此，D～L为正的值，各回报的大小除了具有上述的I>H的关系以外，也可以具有以下关系。

首先，对于D和F，是故障发生区域与故障发生区域外的边界线的位置精度的问题，期望在步骤S605中使用于判断的、与故障有关的状态变量的值或与将故障有关的多个状态变量的值作为坐标值的点越是从该边界线远离则设定为越大的负的回报。相反地，对于E，在步骤S605中使用于判断的、与故障有关的状态变量的值或将与故障有关的多个状态变量的值作为坐标值的点越是接近该边界线则设定越大的正的回报即可。对于G，与H、I的负的回报的大小相比，如果某种程度上并不大则难以使回报最大化，因此认为期望设定为(H+I)≤G≤3(H+I)左右。对于J，察觉到与故障有关的状态变量的值或以多个状态变量的值为坐标值的点比预定范围更接近故障发生区域这一情况，指令故障避免驱动条件，但是由于发生了故障而故障避免驱动条件也许不适当，但是在被推定为比上述故障发生区域与故障发生区域外的边界线更靠安全侧的状态变量的值或以多个状态变量的值为坐标值的点的位置发生了故障，因此通常也可以将J设定为大于D、F。另一方面，L为未注意到与故障有关的状态变量的值或以多个状态变量的值为坐标值的点比预定范围更接近因任一个定量性故障发生机制发生故障的故障发生区域时发生的故障的结果所对应的负的回报，因此期望设定为L>J。对于其余的K，是能够适当地避免故障的正的回报，但是偏向于在状态变量的值或以多个状态变量的值为坐标值的点不太接近故障发生区域的状态下指令故障避免驱动条件的趋势，因此不太期望设定太大的正的回报，认为期望设为K<G的关系。

通过反复进行上述步骤S601～步骤S632，机器学习装置101反复更新价值函数，进行学习使得根据激光装置2的状态变量能够推定定量性故障发生机制，并且参照学习结果，在处于激光装置可能发生故障的状态时对激光装置能够指令精确的故障避免驱动条件。其结果，能够逐渐减少激光装置中的故障，从而能够实现可靠性高的激光装置。

<第五实施方式>

该实施方式的机器学习装置相当于将作为预防保全装置的功能追加到图1示出的机器学习装置1。即，本实施方式的机器学习装置对激光装置2的控制部9进行指令，使得按着预定的时间表，以预定驱动条件驱动激光装置2，记录包含每次以预定驱动条件驱动时的激光装置2的光输出特性数据的状态变量作为该激光装置2的上述状态变量的履历数据，在由状态观测部13观测的状态变量中包含所记录的履历数据。并且，参照与通过该学习掌握的各故障对应的定量性故障发生机制，在根据履历数据内包含的任一状态变量的值的推移或以多个任一上述状态变量的值为坐标值的点的移动推移观测到任一状态变量的值或以多个任一上述状态变量的值为坐标值的点逐渐接近因任一个上述定量性故障发生机制发生故障的上述故障发生区域的情况下，预测以标准性驱动条件驱动了激光装置2时逐渐接近故障发生区域的上述状态变量的值或以上述状态变量的值为坐标值的点到达故障发生区域为止的时间、即直到故障发生为止的剩余时间。然后，当剩余时间变得比预定剩余时间短时，输出剩余时间、预测为经过剩余时间之后发生故障的定量性故障发生机制。

此外，在图13中，按着预定的时间表进行指令，使得以预定驱动条件驱动激光装置2，将包含每次以预定驱动条件驱动时的激光装置的光输出特性数据的状态变量记录为激光装置的上述状态变量的履历数据这种动作为简单动作，因此进行省略，仅示出使用所记录的履历数据来预测并输出剩余时间的动作的局部流程图。

在图9B的流程图的步骤S519之前，插入图13的流程图，由此机器学习装置1进行学习使得根据激光装置2的状态变量能够推定定量性故障发生机制，并且除了具有参照学习结果在处于激光装置可能发生故障的状态时对该激光装置能够指令精确的故障避免驱动条件的预防保全功能以外，还具有特性逐渐劣化而对发生故障的部件等均输出包含直到故障为止的剩余时间、故障部位的信息的所预测的定量性故障发生机制的预防保全功能。

在图13示出的流程图中，判断是否对履历数据进行追加记录、即按照预定的时间表，以预定驱动条件驱动激光装置2并是否追加记录新的履历数据(步骤S701)。在履历数据中存在追加记录的情况下，接着，不论以相同驱动条件即预定驱动条件进行了驱动，判断与上一次或以前作为履历数据而记录的激光装置2的状态变量的值相比是否存在值渐变的状态变量(步骤S702)。在不存在这种渐变状态变量时返回至图9B的流程图的步骤S519。另一方面，在存在这种渐变状态变量时估计该渐变状态变量的值发生变化期间的有效驱动时间(步骤S703)。有效驱动时间是指以标准驱动条件驱动的情况下换算的驱动时间，例如在激光器输出为标准驱动条件的n倍的情况下，如果加速系数为n的m乘，则实际驱动时间×n^m成为有效驱动时间。如后文中所述，还能够将该加速系数设为通过机器学习进行学习的对象。

当这样估计有效驱动时间时，将渐变状态变量的值的变化量除以该估计出的有效驱动时间，计算渐变状态变量的值的变化速度(步骤S704)。然后，在此之前判断是否存在预测出该渐变状态变量的值的变化速度的预测结果(步骤S705)。如果存在预测结果，则判断与本次计算出的变化速度之间的差的大小(步骤S706)，在差较大的情况下(在本实施方式中差大于δ的情况下)，认为上述加速系数等存在误差，误差计算部16计算误差7(步骤S707)，预测该渐变状态变量的值的以后变化速度、即渐变状态变量的值或以渐变状态变量的值为坐标值的点的坐标以后如何变化(步骤S708)，参照包含图10、图11所示的故障发生区域等的信息的目前为止的学习结果，渐变状态变量的值或以渐变状态变量的值为坐标值的点的坐标如预测那样变化而预测出故障的发生的故障发生机制(步骤S709)，判断是否预测出故障发生(步骤S710)。

在无法预测出故障发生的情况下，返回至步骤S519，在预测出任意故障发生的情况下，参照图10、图11所示的故障发生区域等的信息和预测的渐变状态变量的值或以渐变状态变量的值为坐标值的点的坐标的以后的变化状态，推定以标准性驱动条件驱动了激光装置时故障发生为止的剩余时间(步骤S711)，判断该推定出的剩余时间是否比预定时间短(步骤S712)。在推定出的剩余时间比预定时间长的情况下，返回至步骤S519，在推定出的剩余时间比预定时间短的情况下，输出推定出的故障发生为止的剩余时间、预测的发生故障机制内包含的故障发生预测部位的信息(步骤S713)，返回至步骤S519。

此外，在步骤S705的判断中尚未存在预测出渐变状态变量的值的变化速度的预测结果的情况下，从步骤S705进入到步骤S708。另外，在步骤S701中判断为并未追加记录履历数据的情况下，判断是否存在故障发生为止的剩余时间的推定结果(步骤S714)。在不存在剩余时间的推定结果时返回至步骤S519，但是在存在剩余时间的推定结果的情况下，与上述步骤S703同样地，估计从以前推定出剩余时间的时间点起的有效驱动时间(步骤S715)，从以前推定出的剩余时间减去有效驱动时间，计算在该时间点预测出的剩余时间(步骤S716)，在步骤S712中判断重新推定出的剩余时间是否比预定时间短。由此，能够避免以下问题：在并未追加记录履历数据期间，剩余时间与预定时间相比大幅地减少，剩余时间的输出定时延迟。

在上述第三实施方式、第四实施方式的机器学习装置中，具备针对值急剧变化的状态变量指令故障避免驱动条件以避免故障的功能。而在本实施方式中，具有如磨损故障那样随着时间缓慢变化的状态变量的值接近故障发生区域的情况下的预防保全功能，在该情况下，与避免故障相比，直到发生故障为止的时间、认为发生故障的部位的信息更重要。如果事先获知预测出故障的时间、位置，则能够推进更换所需的部件、单元的库存、预算等的准备，从而能够将用于维护、修理的激光装置的停止期间抑制为最小限。

<第六实施方式>

本实施方式的机器学习装置相当于在图4示出的机器学习装置101中具备预防保全装置。具备该预防保全装置的本实施方式的机器学习装置101对激光装置2的控制部9进行指令，使得按着预定的时间表，以预定驱动条件驱动激光装置2，将包含每次以预定驱动条件驱动的激光装置的光输出特性数据的状态变量记录为激光装置2的上述状态变量的履历数据，在由状态观测部13观测的状态变量中包含记录的履历数据。并且，参照与通过学习掌握的各故障对应的定量性故障发生机制，机器学习装置101在根据履历数据内包含的任一状态变量的值的推移或以多个上述任一状态变量的值为坐标值的点的移动推移观测到上述状态变量的值或以上述状态变量的值为坐标值的点逐渐接近因任一个上述定量性故障发生机制发生故障的上述故障发生区域的情况下，以标准性驱动条件驱动激光装置时，预测逐渐接近故障发生区域的上述状态变量的值或以上述状态变量的值为坐标值的点到达故障发生区域为止的时间、即直到故障发生为止的剩余时间。当剩余时间变得比预定剩余时间短时，输出剩余时间、预测为经过剩余时间之后发生故障的定量性故障发生机制。

图14仅示出与图13同样地使用所记录的履历数据来预测并输出剩余时间的动作的局部流程图，在图12B的流程图的步骤S620之前插入图14的流程图，由此机器学习装置101进行学习使得根据激光装置2的状态变量能够推定定量性故障发生机制，并且除了具有参照学习结果在处于激光装置可能发生故障的状态时对激光装置能够指令精确的故障避免驱动条件的预防保全功能以外，还具有特性逐渐劣化而对发生故障的部件等均输出包含直到发生故障为止的剩余时间、故障部位的信息的预测的定量性故障发生机制的预防保全功能。

在图13中在针对渐变状态变量的变化速度的计算结果与上一次预测出的结果的差异较大时，由误差计算部16计算误差7，但是在图14中在针对渐变状态变量的变化速度的计算结果与上一次预测出的结果的差异变较小(在本实施方式中差异与δ相同或小于δ时)设定正的回报(+M)，在差异较大时(在本实施方式中差异大于δ时)设定负的回报(-N)，因此省略说明图14的流程图的动作。

在第五实施方式、本实施方式的机器学习装置中，按着预定的时间表，在预定驱动条件下驱动激光装置，将包含每次在预定驱动条件下驱动的激光装置的光输出特性数据的状态变量记录为激光装置的状态变量的历履历数据，在由状态观测部观测的状态变量中包含所记录的该激光装置的状态变量的履历数据。记录这样定期地在相同驱动条件下驱动时的激光装置的状态变量，由此存在以下优点：能够掌握激光装置的状态变量的推移，有助于学习由磨损故障等引起的故障的定量性故障发生机制。

另一方面，在激光装置的状态变量为未知或与上一次驱动时相比有可能发生变化的情况下，具体地说，在与网络重新连接的、设置位置移动的、比预定暂停期间相比长时间未驱动的、构成部件被更换的、构成的部件被调整等的情况下，当突然在上述预定驱动条件、标准性驱动条件下进行驱动时，有可能发生意想不到的故障。因此，在标准性驱动条件或高负载驱动条件下进行驱动之前，在预定的低负载驱动条件下指令驱动，通过状态观测部观测在低负载驱动条件下驱动时的状态变量，参照与通过学习掌握的各故障对应的定量性故障发生机制，在标准性驱动条件或高负载驱动条件下驱动的情况下，在预测到发生故障的情况下，期望输出预测发生的故障的定量性故障发生机制。

通过设为这种结构，能够防止以下情况：在长时间暂停过程中加工头的保护窗受污染，由于来自保护窗的反射光而发生故障或由于光轴调整不充分而在非预期的位置处照射激光输出光、反射光而发生故障或瞬间发生故障。在仅通过低负载驱动无法判断的情况下，也可以在稍高的负载驱动条件下尝试进行驱动。

<第七实施方式>

图15是本发明的第七实施方式的机器学习装置输出的列表的一例，参照与通过学习掌握的激光装置中的各故障对应的定量性故障发生机制以及与各定量性故障发生机制对应的故障的发生频率，为了降低激光装置中发生故障的频率而记载了期望改进的项目。当通过学习掌握与各种故障中的每个故障对应的定量性故障发生机制时，可知有效地降低故障的发生频率的改进点，因此当输出该信息时，得到针对激光装置的可靠性提高的有效的知识，从而能够开发出高可靠且长寿命的激光装置。关于故障机制，也可以在列表中仅显示概要，因此当将链接粘贴到发生故障机制的概要而点击时，详细地显示还包含定量性值的定量性故障发生机制。也可以对各改进项目附注分数、优先级。另外，也可以将平均修理费用、平均修复时间等项目记载到列表，以便更容易理解改进的必要性。

<第八实施方式>

图16是表示本发明的第八实施方式的机器学习装置在网络上的位置、向网络的连接状态的一例的框图。第一实施方式至第七实施方式中的任一机器学习装置201存在于雾服务器(fog server)23上，该雾服务器23经由第一网络21控制至少一个单元22，该至少一个单元22包含多个机器，该多个机器包含至少一个上述激光装置。通过使机器学习装置201存在于用于控制较小规模的单元的雾服务器23上，由此能够进行激光装置2的状态变量的观测、故障避免驱动条件的指令等实时性重要的信息的更换而不延迟。

另外，使第一实施方式至第七实施方式中的任一机器学习装置301存在于云服务器25上，该云服务器25经由第二网络24控制雾服务器23的至少一个，该雾服务器23经由第一网络21控制至少一个单元22，该至少一个单元22包含多个机器26，该多个机器26包含至少一个上述激光装置2。使机器学习装置301存在于具备大规模记录容量且能够高速地进行大规模信号处理的云服务器25上，由此能够高速地进行伴随通过神经网络等进行机器学习产生的信号处理、计算。

另外，如图16所示，存在多个机器学习装置201、301，期望在多个机器学习装置之间相互交换或共享机器学习的结果。故障并非如此频繁地发生，因此进行学习容易变得费时，通过交换或共享学习结果，能够提高学习的行进速度。另外，还提高学习精度。

以上，说明了本发明的实施方式，但是本发明并不仅限于上述实施方式的示例，通过施加适当的变更，能够以各种方式实施。

Claims

1.一种机器学习装置，经由网络与至少一台激光装置连接为能够相互进行信息通信的状态，其特征在于，

该激光装置具备：

至少一个激光振荡器；

电源部，其将驱动电流供给至上述激光振荡器；

至少一个输出光传感器，其检测从上述激光振荡器出射的激光的光输出；以及

控制部，其至少对上述电源部输出与光输出指令对应的电流输出指令，并接收来自上述输出光传感器的检测信号，

上述机器学习装置具备：

状态观测部，其通过上述激光装置的上述控制部，观测包含由上述输出光传感器检测出的光输出的时序数据和上述光输出指令的上述激光装置内外的状态变量；

判断结果取得部，其取得针对上述激光装置中的各故障从上述机器学习装置输出的定量性故障发生机制的正确与否的判断结果；

学习部，其接收来自上述状态观测部的输出以及来自上述判断结果取得部的输出，将上述各故障所对应的上述定量性故障发生机制与由上述状态观测部观测到的上述激光装置的状态变量和由上述判断结果取得部取得的上述定量性故障发生机制的正确与否的判断结果关联起来进行学习；以及

决策部，其至少在根据上述光输出的时序数据与上述光输出指令的对照检测出上述各故障的发生时，参照上述学习部的学习结果，决定应从上述机器学习装置输出的上述定量性故障发生机制。

2.根据权利要求1所述的机器学习装置，其特征在于，

在上述状态观测部观测的上述激光装置的上述状态变量中包含以下内容中的至少一个：

包含上述激光装置的加工头的硬件结构；

上述驱动条件或上述驱动状况的履历；

上述激光装置的修理履历；

控制上述激光装置的控制软件的内部数据；以及

根据上述输出数据或上述内部数据得到的计算数据，

3.根据权利要求1或2所述的机器学习装置，其特征在于，

上述机器学习装置记录了表现与上述激光装置中的各故障对应的定量性故障发生机制的至少一部分的至少一个物理模型，该定量性故障发生机制包括成为故障发生的诱因的故障原因及该故障的大小开始到由上述故障原因引起的上述激光装置的上述状态变量中的特定的上述状态变量的值或变化、随着上述特定的状态变量的上述值或上述变化而发生损伤的物理现象或物理机制、由上述物理现象或上述物理机制引起损伤的位置或部件及表示该损伤的状态/程度的故障状况为止的一系列物理性因果关系，并且，

参照上述物理模型，进行与上述各故障对应的上述定量性故障发生机制的推定以及与上述各故障对应的上述定量性故障发生机制的学习中的至少一个。

4.根据权利要求3所述的机器学习装置，其特征在于，

5.根据权利要求4所述的机器学习装置，其特征在于，

上述学习部具有反映了学习结果的至少一个学习模型，并且，

上述学习部具备误差计算部和学习模型更新部，

在上述确认的上述故障发生状况与上述输出的上述定量性故障发生机制所包含的上述故障发生状况存在差异的情况下，根据上述差异的大小来计算误差，上述学习模型更新部根据上述误差来更新上述学习模型，并且，

当参照上述物理模型时，在上述确认的故障发生状况与上述输出的定量性故障发生机制所包含的上述物理现象或上述物理机制矛盾的情况下，认为产生了比前者更大的误差并计算误差，

上述学习模型更新部根据上述误差的大小，更新上述学习模型。

6.根据权利要求4所述的机器学习装置，其特征在于，

上述学习部具有反映了学习结果的至少一个价值函数，并且，

上述学习部具备回报计算部和价值函数更新部，

在上述确认的上述故障发生状况与上述输出的上述定量性故障发生机制所包含的上述故障发生状况一致的情况下，上述回报计算部设定正的回报，

在上述确认的上述故障发生状况与上述输出的上述定量性故障发生机制所包含的上述故障发生状况存在差异的情况下，上述回报计算部根据差异的大小设定负的回报，

当参照上述物理模型时，在所确认的故障发生状况与推定出的定量性故障发生机制所包含的上述物理现象或上述物理机制产生矛盾的情况下，上述回报计算部设定比前者更大的负的回报，

上述价值函数更新部根据由上述回报计算部设定的上述回报，更新上述价值函数。

7.根据权利要求6所述的机器学习装置，其特征在于，

上述学习部在检测出上述激光装置中的故障时，针对上述故障，通过上述决策部不仅输出单一的第一候选的上述定量性故障发生机制，还输出包含第二候选的上述定量性故障发生机制、第三候选的上述定量性故障发生机制的多个定量性故障发生机制，

上述回报计算部在对各候选的定量性故障发生机制设定正或负的回报时，上述定量性故障发生机制的候选顺序越是上位则设定绝对值相对大的回报，上述定量性故障发生机制的候选顺序越是下位则设定绝对值相对小的回报，

8.根据权利要求1或2所述的机器学习装置，其特征在于，

9.根据权利要求8所述的机器学习装置，其特征在于，

上述机器学习装置指令上述激光装置的上述控制部按照预定时间表且以预定的驱动条件驱动上述激光装置，

将包含每次以上述预定驱动条件驱动时的上述激光装置的光输出特性数据的上述状态变量记录为上述激光装置的上述状态变量的履历数据，

将记录的上述履历数据包含在由上述状态观测部观测的状态变量中。

10.根据权利要求9所述的机器学习装置，其特征在于，

11.根据权利要求1或2所述的机器学习装置，其特征在于，

在通过上述网络连接为能够相互进行信息通信的状态的上述任一个激光装置相当于以下任一状态：

重新与上述网络进行连接，

移动了设置位置，

比预定暂停时间长的期间未被驱动，

更换了结构部件，

调整了结构部件，

并且，上述激光装置的状态变量为未知或有可能从上一次驱动时发生了变化的情况下，指令相应的激光装置的上述控制部，在以标准性驱动条件或高负载驱动条件驱动之前以预定的低负载驱动条件进行驱动，

通过上述状态观测部观测以上述低负载驱动条件驱动时的状态变量，参照通过学习已掌握的各故障所对应的上述定量性故障发生机制，在以标准性驱动条件或高负载驱动条件驱动了的情况下，在预测发生故障的情况下，输出预测要发生的故障的定量性故障发生机制。

12.根据权利要求1或2所述的机器学习装置，其特征在于，

13.根据权利要求1或2所述的机器学习装置，其特征在于，

14.根据权利要求1或2所述的机器学习装置，其特征在于，

15.根据权利要求1或2所述的机器学习装置，其特征在于，