JP7198967B2

JP7198967B2 - 切断プロセスにおけるレーザ切断ヘッド移動の制御

Info

Publication number: JP7198967B2
Application number: JP2022513179A
Authority: JP
Inventors: アレクサンドルパラズィネツ
Original assignee: バイストロニックレーザーアクチェンゲゼルシャフト
Priority date: 2019-08-28
Filing date: 2020-08-19
Publication date: 2023-01-04
Anticipated expiration: 2040-08-19
Also published as: EP3786736A1; JP2022540510A; EP3999923A1; EP3999923B1; US20220244705A1; WO2021037641A1; US11467559B2

Description

本発明は、レーザ切断機の切断ヘッドを制御する制御命令を算出する方法、機械学習装置、及び機械学習装置の意思決定エージェントに関し、更にこれらの各コンピュータプログラムに関する。

現在のレーザ切断機は、メタルシート産業において幅広く利用されている。このようなレーザ切断機の典型的な動作は、ワークピースから被加工部品を分離するために、一般には閉じている独立した輪郭を１つずつ切断することである。この動作は、ワークピース内に熱エネルギを投入（局部加熱）すること、切断ガス噴射を行うこと、及び切断ヘッドを機械的に移動することを伴う。これらの動作を有するため、切断シーケンスの概念は、切断プロセスにおいて極めて重要である。主なパフォーマンス基準は、切断シーケンス、すなわち全サイクル時間（切断ジョブの処理時間）、機械的に移動する切断ヘッドと既に分離されて傾斜している可能性のある部品との衝突のリスク、ワークピースの特定の区画の過熱、機械部品の機械的寿命などから直接、影響を受ける。最短の加工経路及び衝突回避は解決された課題であるように見えたとしても、材料内の熱分布を考慮した（特に経路の最適化及び衝突回避と組み合わせて熱分布を考慮した）最適な加工シーケンスは、高い自由度のせいで遥かに複雑な問題である。熱分布の推定（通常はオフラインの有限要素（ＦＥ）シミュレーション）は高価な演算処理を必要とする。このため、「次に最も近くで利用できる近隣部」よりも優れた切断戦略を妥当な時間で見つけることは、一般的な機械制御装置では不可能である。切断経路の最適化そのものが、組合せ最適化のＮＰ困難な問題である。

図１に示すように、一般的な機械加工計画１は、被加工部品２を含む。機械制御装置が適用する標準の機械加工シーケンス３は、「次に最も近くで利用できる近隣部」タイプであり、直線状に並ぶシーケンスである。このシーケンスには、前述したワークピースの過熱の問題はいずれも考慮されておらず、切断部品のオーバードライブも考慮されていない。いくつかの発見的規則を適用して標準の機械加工シーケンスを改良できるが、発見的規則は、異なる機械加工計画の策定には適用できない場合がある。機械加工シーケンスの問題は、複雑性ｎ！の組合せ最適化の問題であるため、発見的規則を利用することで、機械加工プロセスの最終段において標準の機械加工シーケンスより劣悪な状況となる可能性が非常に高い。機械学習を用いた巡回セールスマン問題（ＴｒａｖｅｌｌｉｎｇＳａｌｅｓｍａｎＰｒｏｂｌｅｍ；ＴＳＰ）の解決は、科学文献（ベロー（Ｂｅｌｌｏ）他の「ＮｅｕｒａｌＣｏｍｂｉｎａｔｏｒｉａｌＯｐｔｉｍｉｚａｔｉｏｎｗｉｔｈＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ（強化学習による神経組合せ最適化）」、２０１７年）において広く知られている。本願の課題と対比すると、巡回セールスマンの問題は、純粋にアルゴリズムの問題であり、移動負荷（グラフのエッジ）をステートレス（履歴から独立）にした加重グラフ内で最短のハミルトンパスを発見することから成る。換言すると、巡回セールスマン問題は、処理の過程において静的に維持されるが、本発明が解決しようとする課題は、動的であり、各ピースが切断された後、残りの他のピースにとって存続する状況が変化する。経時変化するＴＳＰの事例グラフは、文献において時間グラフとして知られている（Ｏ．ミカイル（Ｍｉｃｈａｉｌ）著、「ＡｎＩｎｔｒｏｄｕｃｔｉｏｎｔｏＴｅｍｐｏｒａｌＧｒａｐｈｓ：ＡｎＡｌｇｏｒｉｔｈｍｉｃＰｅｒｓｐｅｃｔｉｖｅ（時間グラフ概説：アルゴリズム的観点）」）。時間グラフにおいてＴＳＰを解決することにより、静的事例よりも複雑性が高度になり、多項式時間の近似解となる可能性が減少することが判る。
米国特許出願公開第２０１７／０２７０４３４号明細書には、レーザ加工システムの状態データを計算するために使用される機械学習装置が開示されている。
米国特許出願公開第２０１１／０２８４５１２号明細書には、指紋で表されるセンサからの特性値を使用してレーザ加工動作を監視する方法が開示されている。データ処理には人工ニューラルネットワークを使用することができる。
論文「ダブルQ学習による深層強化学習」（H.van Hasselt et al.,2015年12月8日、1～13ページ、XP055317414）には、Q学習アルゴリズム、特にダブルQ学習アルゴリズムについての説明がある。それは、Atari2600ドメインのゲームのコンテキストでの過大評価の問題に関連する。

したがって、レーザ加工機には、解決されるべき動的課題が存在し、この課題において、次の部品への移動についての可能性が、加工機から得られるリアルタイムの状態観察結果に応じて時間と共に変化する。

米国特許公開第２０１８／０１６９８５６号明細書には、全加工時間、加工領域に費やされる時間、ロボット駆動電流などの基準を考慮して溶接ロボットの軌跡を最適化することを目的とした機械学習方法及び機械学習装置が記載されている。前記米国特許出願公開第２０１８／０１６９８５６号で解決された課題とは異なり、レーザ切断において解決されるべき問題は、全加工時間又は軸駆動部の使用電流の最適化だけではない。レーザ切断プロセスは、下記の点で溶接と異なる。
－切断プロセスの実行中に被加工部品がワークピースから物理的に切り離される。薄いメタルシート材料では、切り離された部品が立ち上がり（傾斜して）衝突リスクを生じる（レーザ加工機の切断ヘッドが傾斜した部品と衝突する）可能性が極めて高い。この問題は、本発明によって解決される。
－切断プロセスの実行中に熱が蓄積され、厚みのある材料において品質が低下する。この問題は、考慮する必要のある問題であり、本明細書に記載した手法で解決される。

米国特許公開第２０１８／０１６９８５６号明細書

したがって、本発明の目的は、前述した問題の解決策を提供することである。特に、レーザ加工機ヘッドの動作シーケンスを算出する際には、傾斜した部品の衝突リスクを回避しなければならず、また、熱の蓄積を考慮する必要がある。

この目的は、付属の独立請求項に係る、制御命令の算出方法、機械学習装置、意思決定エージェント、及びコンピュータプログラムによって達成される。有利な態様、特徴、及び実施例は、従属請求項に記載されると共に、下記の説明において利点と合わせて記載される。

第１の態様によれば、本発明は、レーザ加工機の機械加工ヘッド（すなわち、切断ヘッド）を制御する制御命令の算出方法に関する。本方法は、コンピュータで実施され、下記のステップを含む。
－符号化された加工計画、特に、切断計画を読み取る又は受け取るステップ。切断計画は、ワークピースがどのように何に加工されるのか、すなわち、どこでどのように切断を実行すべきであるのか、及び利用すべき切断形式を定義するデータを有するデータ構造である。通常、ワークピースは、可能な限り効率的に加工され、ひいては可能な限り多くの切断が行われるように構成されて、元のワークピースからできるだけ多くの切断された被加工部品を得るようにしなければならない。ただし、加工計画には、切断の順序ひいては切断経路を表す、例えば、どの切断を最初に実行し、どれを２番目に実行するのかなどを規定する機械加工シーケンスは定義されていない。
－例えば、赤外線カメラによって取り込まれた光センサ信号など、一連のセンサ信号を利用して、ワークピースの加工に関わる状態を継続的に特定するステップ。
－加工ヘッドが次に取るべき行動を算出する、コンピュータで実施される意思決定エージェントを提供し、符号化された切断計画と特定された状態とを有するトレーニング済みモデルにアクセスすることによって、算出された行動に基づいて加工計画を実行する制御命令を提供するステップ。

好ましい実施形態において、モデル又はニューラルネットワークは、状態（特に、多層画像、好ましくは多層画像マトリクスの形式の状態）と符号化された切断計画とを入力として受け取り、機械学習装置に送られて次に実行される行動を出力として提供する。したがって、モデル又はニューラルモデルは、デジタル入力、特に、光入力、より具体的には、図形入力を処理する。例えば、切断計画は、図形入力として提供されてもよい。

他の好ましい実施形態によれば、報酬関数及び個別モジュールが提供され、この実施形態は、各行動の実行後に、各行動が、受信したセンサ信号に基づいて報酬を受け取るように適合されたもので、意思決定エージェントは、全ての行動の総合報酬を最大化する最適化関数を実行する。

他の好ましい実施形態によれば、状態は、レーザ加工機の状態、既に加工された被加工部品の状態、及びこれから加工する必要のある被加工部品の状態である、又はこれらの状態を含むと共に、ワークピースの状態も表すことができる。したがって、状態は時間と共に動的に変化し、特に、ワークピースに対してレーザ加工機の動作が実行された後、より具体的には被加工部品の各切断後に変化する。このことは、経時的に変化しない静的状態と比べて、遥かに多くの演算を必要とするため、前述した問題の解決をより複雑なものにする。

状態を特定する状態観察ユニットは、例えば、実際の機械加工状況（切断状況）の光センサ信号を利用して実施されてよい。好ましい実施形態において、観察内容は、赤外線（ＩＲ）カメラによる観察値（機械加工中にリアルタイムで記録されるヒートマップ）、材料の変形、観察された衝突リスク（傾いた部品）、累積加工時間、駆動部温度などから得られる。ここに列挙した項目は、この特定のセンサ信号には限定されず、拡張されてよい。他の好ましい実施形態において、画像のみでなく、ファイルからのデジタルデータも処理用の入力として提供されてよい。例えば、切断計画は、ベクトル図形の形式で、又は画像ファイル内のピクセルデータとして提供されてよい。したがって、光信号及び／又は画像が状態決定のために処理されてよい。好ましくは、複数の異なる光入力、特に、２つの異なる入力が処理される。好ましい実施形態において、第１入力として機能する第１画像が提供され、この第１画像には、実際の切断状況及び切断の成否と共に、既に切断された部品と、これから切断されるべき部品とが示される。画像は、各切断部品の完成後に変化する。また、第２入力して機能する第２画像が提供され、第２画像には、ワークピース内の熱分布及び／又は切断部品内の熱分布が示される。第２画像は、切断プロセスの品質を評価するための重要な情報である。第１入力及び第２入力の両方が処理されて状態が決定される。

更に他の好ましい実施形態によれば、レーザ加工機による動作の実行後及び／又は実行中に、経験データが蓄積される。経験データは、一連センサから記録されたレーザ加工機に関する観察内容（決定された状態を含む）を表すデジタルデータである。経験データは、蓄積されると共に、モデル又はネットワークを継続的に改良する（特に、モデルの学習機能を改良する）ためにモデル又はネットワークに送り返される（フィードバックされる）。記録された観察内容をフィードバックすることにより、加工機は、否定的なフィードバックであった場合に、生成された解決策の構成要素にペナルティーを与え、検索空間の更なる探索を実行することができ、逆に、肯定的なフィードバックであった場合には、既存の解決策を最適解として安定させることができる。各種異なる実際の加工機が自身の機械加工プロセスを自己適合（経験から「学習」する）できるものであることは特に重要であるが、これは、実際の加工機はそれぞれコンディションに若干のばらつき、例えば、空気の流れや組み立て時のばらつきなどを有する可能性があるためである。

他の好ましい実施形態において、状態は、光学的状態（光センサによって記録された状態）を表す、又は光学的状態含み、多層画像の形式で、若しくは図形として示されても、又は多層画像の形式で図形として示されてもよい。多層画像又は多層画像マトリクスは、下記に示す２つの異なるパラメータを含む。
１．加工されているワークピースの第１層画像。第１層画像では、既に加工された部品を、まだ加工されていない部品から区別することができる（特に、切断計画のうちの既に実行された切断処理を、自動物体認識ツール、例えば、アルゴリズムによって、これから実行されるべき切断処理から区別することができる）。
２．ワークピースの第２層画像。第２層画像には、切断計画に従って加工されているワークのヒートマックが示される。好ましい実施形態において、第２層画像は、赤外線カメラを用いて取得することができ、切断中又は切断直後の空間的熱分布及び／又は局部熱分布を表すことができる。

この特徴は、次の行動、特に、最適切断シーケンスを決定する際に、両方の側面（すなわち、切断処理及び傾斜した部品によって生じる問題、及び過熱による品質問題）、ひいては全ての関連情報を考慮できるという重要な技術的利点を有する。

「行動」の用語は、レーザ切断ヘッドを制御する一連のプロセス制御命令として解釈される用語である。したがって、行動は、切断ステップのシーケンス（当初の切断計画には変更が必要であると考える）、切断速度（又は頸動、加速）を規定するモータ駆動部の送り量、焦点シフト、又は切断パラメータの他の設定を意味し得る。

好ましい実施形態において、コンピュータビジョンアルゴリズムが、既に加工された部品とこれから加工される部品とを区別するために実行される。その際に、物体切り出しアルゴリズム及び／又は物体検出アルゴリズムが実行されてよい。

他の好ましい実施形態において、多層画像マトリクスの２つの異なる入力層は、単一の２部構成の合成物に集約されてよい。２部構成の合成物は、熱分布情報及び加工状態情報（加工済み部品とこれから加工されるべき部品とを示す情報）の両方を表すデジタルデータセットである。多層画像マトリクスの２つの異なる入力層は、前述した両方のタイプの情報を含むオーバーレイ画像として提供されても、又は、他の方式で結合されてもよい。

「状態」の用語は、レーザ加工、特に切断の状態を表すデジタルデータセットとして理解される用語である。したがって、状態は、レーザ切断処理が進むにつれて動的に発展して経時的に変化するため、状態は時間示度を有する。状態は、前述したような２つの個別の要素を有すると好ましい。第１に、状態は、切断計画の中のどの部分が既に実行されてどの部分が実行されていない（これから切断する必要がある）のかを検出するために、切断計画に関連付けられてよい。第２に、状態は、切断区画内の局部的熱分布に関連付けられてよい。

他の好ましい実施形態によれば、報酬関数が、下記のグループから選択される。
－切断時間報酬関数
－熱最適化報酬関数
－温度の積分測定値報酬関数
－衝突回避報酬関数

切断時間報酬関数は、切断時間が最適化され得る行動に報酬を与える。熱最適化報酬関数は、過熱問題が回避される、又は少なくとも可能な限り抑制される点において切断プロセスの品質が最適化される行動に報酬を与える。温度の積分測定値報酬関数は、経時的に切断プロセスの品質を向上させるものである。衝突回避報酬関数は衝突問題を回避する、特に、レーザ加工機の切断ヘッド又はその他の部品と、既に切断された部品（傾いている、又はワークピースの残りのグリッド状の構造から脱落している可能性のある部品）との衝突の問題を回避するものである。

この特徴には、異なる報酬関数を適用でき、１回の単独の処理の実行中であっても異なる最適化基準を選択できるという技術的利点がある。特に、各種異なる切断指令（複数の区画）、例えば、ワークピースの第１部位とワークピースの第２部位とで異なる切断指令を有する大きいワークピースを処理する際に、それぞれ異なる最適化基準を選択でき、例えば、第１部位に第１の報酬関数、第２部位に第２の報酬関数というように選択できるため、この特徴は、大量の内部輪郭（穴）を有し独立した内部最適化基準内にある部品に対して特に有用である。報酬関数は、前述したように異なる最適化基準に対応できる。ただし、最適化の目標は包括的なものであり、通常は、部品毎に異なる報酬関数を適用することは無駄であるため、好ましい実施形態では、包括的報酬関数が適用される。報酬関数は、個別の各部品に作用するものではないが、部品が多数の内部輪郭（穴）を有する場合は例外である。この場合は、前述したように、異なる報酬関数及び／又は独立した内部最適化基準を適用することが有用になり得る。

１セットの報酬関数は、異なる最適化目標を実現するものであり、具体的には、前述した切断経路の最適化、切断ジョブの処理時間、切断部品の品質などの異なる最適化目標を実現する。

他の好ましい実施形態において、特定の報酬関数が、特定の処理ジョブに対して、特定のワークピースに対して、又は加工されるワークピース内の特定の部品（領域）に対して決定される。これは、１つのジョブに切断される複数のシートが存在できるので有用である。また、領域固有の最適化も、例えば、複雑な構造である場合に有用である。

他の好ましい実施形態において、報酬関数は、前述した全ての報酬関数の一次（又は多項）の組み合わせであってよく、この組合せには、実際の加工環境に応じてそれぞれ異なる報酬関数を優先できるように、異なる報酬関数に適用される重みとしてユーザ定義による優先順位が利用される。

自己学習エージェントは、Ｑ関数を用いて生成できる、いわゆるＱテーブルを利用したモデル化及び／又はＱテーブルに基づいた行動を行うことができる。Ｑテーブルは、機械加工（特に、切断）プロセスの各ステップに次の行動を算出する状態－行動の組合せの品質を定形化したものである。詳細な情報については、Ｃ．Ｊ．Ｃ．Ｈ．ワトキンス（Ｗａｔｋｉｎｓ）の「ＬｅａｒｎｉｎｇｆｒｏｍＤｅｌａｙｅｄＲｅｗａｒｄｓ（遅延報酬から学ぶ）」（１９８９年）を参照されたい。機械加工シーケンスの場合は、状態－行動空間がかなり膨大であるため、Ｑテーブルは適用できないことが多い。

更に他の好ましい実施形態において、Ｑ関数は、ディープニューラルネットワーク、特に、深層畳み込みネットワークで表されてよい。

更に他の好ましい実施形態において、ニューラルネットワークは、経験再生技術を、特にトレーニング工程において活用できる。経験再生技術の詳細については、シャウル（Ｓｃｈａｕｌ）他による「ＰｒｉｏｒｉｔｉｚｅｄＥｘｐｅｒｉｅｎｃｅＲｅｐｌａｙ（優先順位付き経験再生）」２０１５年を参照されたい。経験再生技術（「ＨＥＲ（後知恵経験再生：ＨｉｎｄｓｉｇｈｔＥｘｐｅｒｉｅｎｃｅＲｅｐｌａｙ）技術」としても知られる）は、データ全体を無作為化して、観察シーケンスにおける対応関係を除去し、データ分布内の変化を平滑化するために用いられることが知られている。経験再生を行うことによって、データセット内の各タイムステップにおけるエージェントの経験（データ、状態）がメモリに格納されるが、これは、それまでの学習工程にフィードバックを提供するためである。入力空間に目標を追加することにより、観察するエージェントに複数の目標が存在することが宣言される。新しいＱ関数は、現在の状態において行う各行動が、現在の目標を達成することに関してどのように良いのかを示す。より詳細な内容については、ニー（Ｍｎｉｈ）らによる「ＰｌａｙｉｎｇＡｔａｒｉｗｉｔｈＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ（深層強化学習を用いたＡｔａｒｉゲームのプレー）」２０１３年を参照されたい。

これまで、請求項に記載した方法を参照しながら本発明について説明してきた。本明細書に記載された特徴、利点、又は代替実施形態は、請求項に記載された他の対象（例えば、コンピュータプログラム、又は意思決定エージェントを備えた機械学習装置）に対応付けることができ、また、その逆もあり得る。すなわち、装置に関して請求又は記載された内容は、方法の文脈で記載又は請求された特徴を用いて改良でき、また、その逆もあり得る。この場合、方法の機能的特徴は、装置の構成ユニットによって実施され、また、その逆もあり得る。一般に、コンピュータ科学では、ソフトウェア実装と、対応するハードウェア実装とは等価である。したがって、例えば、方法におけるデータの「格納」ステップは、記憶装置及びデータを記憶部に書き込む各命令によって実行されてよい。方法について説明した代替実施形態に装置も利用できるが、冗長化を防ぐために、装置については、そのような実施形態を繰り返して明示的に説明しない。

他の態様によれば、本発明は、前述の方法を実行するように適合された、レーザ加工機、特に、レーザ切断機用の機械学習装置に関する。特に、本機械学習装置は、下記を含むことができる。
－符号化された切断計画を受け取る入力インターフェース。
－切断及び機械の実行過程の途中及び又は終了後に継続的に状態を特定するために、一連のセンサからセンサ信号を受け取る別の入力インターフェース。
－意思決定エージェント。意思決定エージェントは、トレーニング済みモデルを含む、又はトレーニング済みモデルにアクセスすることができる。
－レーザ加工機の切断ヘッドを制御する制御命令を提供する出力インターフェース。

機械学習装置は、更に、メモリを含む、又はメモリにアクセスすることができる。メモリは、エージェントのデータを格納及び／又はトレーニング済みモデルを格納するように適合できる。

好ましい実施形態において、機械学習装置は、方法に関して既に説明した好ましい実施形態に従って動作するように適合されてよい。

他の態様において、本発明は、前述した機械学習装置内の意思決定エージェントに関する。

更に他の態様において、本発明は、プログラム要素を含むコンピュータプログラムに関し、プログラム要素はコンピュータを含み、コンピュータは、プログラム要素がコンピュータのメモリに読み込まれたときに、前述した態様に係るレーザ加工機の切断ヘッドを制御する制御命令を算出する方法の各ステップを実行する。コンピュータプログラムは、外部サーバからローカルに設けられたものにダウンロードされるものとして提供されてよい。コンピュータプログラムは、コンピュータ可読媒体に格納されてよい。

更に他の態様において、本発明は、コンピュータが読み込んで実行できるプログラム要素が格納されたコンピュータ可読媒体に関し、プログラム要素は、コンピュータによって実行されたときに、レーザ加工機の切断ヘッドを制御する制御命令を算出する方法のステップを実行するように構成される。

コンピュータプログラム製品及び／又はコンピュータ可読媒体によって本発明を実施することには、本発明によって提案される作業を行うように、既存のコンピュータエンティティ（レーザ加工機内に存在する又はレーザ加工機に関連付けられたマイクロコンピュータ又はプロセッサ）をソフトウェアアップデートによって容易に適合できるという利点がある。

下記に、本願で用いられる用語の定義を示す。

本方法を実行し、且つ制御命令を提供する機械学習装置は、コンピュータネットワーク内のパーソナルコンピュータ又はワークステーションであってよく、前記機械学習装置は、処理装置と、システムメモリと、システムメモリを始めとする各種のシステムコンポーネントを処理装置に連結するシステムバスとを含むことができる。システムバスは、各種のバスアーキテクチャを利用した、メモリバス又はメモリ制御装置、ペリフェラルバス、及びローカルバスなど、複数のタイプのバス構造のうちのいずれかであってよい。システムメモリは、リードオンリメモリ（ＲＯＭ）及び／又はランダムアクセスメモリ（ＲＡＭ）を含んでよい。起動時などにパーソナルコンピュータ内の要素間の情報転送を支援するベーシックルーチンを含む基本入出力システム（ＢＩＯＳ）は、ＲＯＭに格納されてよい。また、コンピュータは、ハードディスクへの読み書きを行うハードディスクドライブ、磁気ディスク（例えば、リムーバブル磁気ディスク）への読み書きを行う磁気ディスクドライブ、及びコンパクトディスク又は他の光（磁気）媒体などのリムーバブル光（磁気）ディスクへの読み書きを行う光ディスクドライブも含んでよい。ハードディスクドライブ、磁気ディスクドライブ、及び光（磁気）ディスクドライブは、それぞれハードディスクドライブインターフェース、磁気ディスクドライブインターフェース、及び光（磁気）ドライブインターフェースによってシステムバスに接続されてよい。これらの各種ドライブと各種ドライブにそれぞれ対応する記憶媒体は、機械可読命令、データ構造、プログラムモジュール、及びコンピュータの他のデータの不揮発性記憶装置を提供する。本明細書に記載した例示的環境では、ハードディスク、リムーバブル磁気ディスク、及びリムーバブル光（磁気）ディスクが採用されるが、当業者であれば、前述した記憶装置に代えて、又は追加して他のタイプの記憶媒体、例えば、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、Ｂｅｒｎｏｕｌｌｉカートリッジ、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）なども利用できることは理解されるであろう。多数のプログラムモジュールがハードディスク、磁気ディスク、光（磁気）ディスク、ＲＯＭ、又はＲＡＭに格納されてよく、例えば、オペレーティングシステム、制御命令を算出する方法及び／又は他のプログラムモジュールのような１つ以上のアプリケーションプログラム、及び／又はプログラムデータなどが格納される。ユーザは、入力装置、例えば、キーボードやポインティングデバイスなどからコンピュータにコマンド及び情報を入力できる。マイクロフォン、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナなどの他の入力装置が含まれてもよい。前述した入力装置及び他の入力装置は、多くの場合、システムバスに接続されたシリアルポートインターフェースを介して処理装置に接続される。ただし、入力装置は、パラレルポート、ゲームポート、又はユニバーサルシリアルバス（ＵＳＢ）などの他のインターフェースによって接続されてもよい。モニタ（例えば、ＧＵＩ）又は他のタイプの表示装置も、例えば、ビデオアダプタなどのインターフェースを介してシステムバスに接続されてよい。モニタの他に、コンピュータは、例えば、スピーカやプリンタなど、他の周辺出力装置を含むことができる。

コンピュータは、１つ以上のリモートコンピュータとの論理接続を規定するネットワーク環境において操作されてよい。リモートコンピュータは、他のパーソナルコンピュータ、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、又は他の共通ネットワークノードであってよく、パーソナルコンピュータに関して前述した要素のうちの多数又は全ての要素を含むことができる。論理接続は、ローカルエリアネットワーク（ＬＡＮ）や広域ネットワーク（ＷＡＮ）、イントラネット、及びインターネットを含む。

好ましい実施形態において、レーザ加工機はレーザ切断機である。ただし、本明細書に示した解決策は、他の種類のレーザ加工機に適用されてもよい。

意思決定エージェントは、好ましくは、ソフトウェア及び／又はハードウェアに実装され、好ましくは、大量の演算処理のための十分なリソースを提供する専用の図形処理装置で実行される。

報酬モジュールは、好ましくは、意思決定エージェントとレーザ加工機環境の両方への論理リンクを有するソフトウェアモジュールである。

加工計画又は切断計画は、内部のデータの自動パーズ及び解析を行えるように構造化された方式の電子ファイルとして提供されてよい。このようなフォーマットの例としては、限定ではないが、Ｇコード（又はＧコードと同様の）命令リスト（テキストファイル）が挙げられる。

観察解釈モジュールは、少なくとも２つの下位状態を有する状態を生成するために、レーザ加工機から受け取ったセンサ信号を解釈及び処理する役割を担う。好ましくは、観察解釈モジュールは、ソフトウェアモジュールとして実施される。また、観察解釈モジュールは、報酬モジュールを含んでよく、この報酬モジュールもソフトウェアで実施されると好ましい。

前述した本発明の特性、特徴、及び利点に加え、これらが実現される方式は、図面を参照しながらより詳細に記述される下記の説明及び実施形態に照らし合わせることでより明白且つ詳細に理解できるようになる。下記の説明は、記載された実施形態に本発明を限定するものではない。同一の要素又は部品には、異なる図において同一の符号が付与され得る。図面は、概して縮尺が対応していない。

理解されるであろうが本発明の好ましい実施形態は、従属請求項又は各独立請求項に係る前記実施形態の組み合わせであってもよい。

本発明の前述した態様及び他の態様は、後述する実施形態から明白であり、これらの実施形態を参照して明瞭に説明される。

従来の既知の機械制御装置に係る切断シーケンスを模式的に示す図である。本発明の好ましい実施形態に係る機械学習装置によって制御されるレーザ加工機環境の構造部品及びアーキテクチャの概要を示す図である。本発明の好ましい実施形態に係る意思決定エージェントを模式的に示す図である。本発明の好ましい実施形態に係る、加工されている状態の構造図である。機械加工ヘッドのための、最も高い報酬を有する制御命令を生成する学習方法のフローチャートである。意思決定エージェントのモデルをトレーニングする学習工程のフローチャートである。本発明の好ましい実施形態に係る制御命令の算出方法のフローチャートである。

本発明において、機械学習装置ＭＬＤ（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇＤｅｖｉｃｅ）及び機械学習方法を使用して、機械加工シーケンスを複数の基準で最適化する際の複雑さの問題を解決することを提案する。

図２に示すように、機械学習装置ＭＬＤは、レーザ加工機Ｌとその環境、すなわち、機械加工ヘッドＨを移動するガントリのような他の装置や外部センサなどと相互作用し、且つ協働する。機械学習装置ＭＬＤは、レーザ加工機Ｌの環境内で取得されたセンサ信号ｓｅｎｓを受け取り、複雑な演算処理の結果として、制御命令ＣＩをレーザ加工機Ｌに提供する。レーザ加工機Ｌは機械制御装置ＭＣを含み、機械制御装置ＭＣは、軸駆動部ＡＤの制御信号、切断ヘッドＨの制御信号、及び／又は、例えば、ガントリ若しくは切断ヘッドＨの可動部などの他のアクター（行動器）の制御信号を用いて、レーザ加工機Ｌの切断プロセスを制御する。レーザ加工機Ｌには複数のセンサＳが設けられており、複数のセンサＳは、レーザ加工機Ｌの各種異なる位置に配置されてよい。これらのセンサＳは、加工環境、すなわち切断環境の多層画像又は多層画像マトリクスを継続的に提供する赤外線カメラを含むことができる。

機械学習装置ＭＬＤは、機械加工環境Ｌから受け取った観察データを有するセンサ信号ｓｅｎｓの数学的前処理とモデリングを実行する役割を担う観察解釈モジュールＯＩＭを含む。観察解釈モジュールＯＩＭは、ユーザ設定可能な報酬関数モジュールＲＦを含み、報酬関数モジュールＲＦは、少なくとも１つの最適化基準ＯＣ又は複数の異なる最適化基準ＯＣの組み合わせを含む。最適化基準ＯＣは、例えば、安全性、機械加工時間、品質であり得る。最適化基準ＯＣとして、人間の経験からのフィードバック、例えば、熟練した機械オペレータからの学習として利用することができ、熟練した機械オペレータの経験は、定形化されてメモリＭＥＭに格納される。意思決定エージェントＤＡは機械学習の数学モデルである。意思決定エージェントＤＡは、ニューラルネットワーク、ディープニューラルネットワーック、畳み込みニューラルネットワーク、及び／又はリカレントニューラルネットワークを含むことができ、将来の報酬を予測して、将来の機械加工ステップにとっての最適行動ａを選択するようにトレーニングされる。

Ｑ学習の観点において、システムの状態ｓは、次の２つで構成されるか、又は次の２つを表す。
１．既に加工された部分がこれから加工されるべき部分から区別された、機械加工計画Ｐの現在のレイアウトのデジタル形式
２．例えば、ＩＲカメラを用いて観察される熱分布マップ

より一般的に述べると、システムの状態ｓは、通常、可変構造化データ（又は、少なくともニューラルネットワークへの入力に適さない構造化データ）として表される。切断機によって加工される切断計画Ｐは、部品内部の穴を含めて部品を表す一連の幾何形状輪郭である。切断計画毎の部品数は固定された個数でも、限定（材料シートの物理寸法によって限定）された個数でもない。切断計画Ｐは、機械学習装置ＭＬＤの入力インターフェースＪＮにおいて受け取ることができる。

状態ｓの前処理の最初のステップは、切断計画Ｐとその現在の機械加工の進捗を、ニューラルネットワークへの入力に適した固定サイズのマトリクスに符号化することである。好ましい実施形態において、多層画像又は多層画像マトリクスの第１層として、１つの色で示された加工されるべき部品と、別の色で示された既に加工された部品とを有する固定サイズのＮ×Ｍピクセルの多層画像を作成することが考えられる。熱の伝搬と材料の過熱が重要である用途では、部品の切断後に経過した時間に応じて切断部品の色を更新する（特定の制限時間に達した後で固定値に飽和させる）アルゴリズムが提供される。多層画像又は多層画像マトリクスの第２層には、切断計画のヒートマップ（測定温度又はシミュレーション温度に対応するピクセル値）が示される。ニューラルネットワークの入力として大きい可変サイズの画像を有すると、ネットワークのトレーニングに実用上の問題が生じる。この問題を克服するために、意思決定ニューラルネットワークの前に変分オートエンコーダ（ＶＡＲＩＡＴＩＯＮＡＬＡＵＴＯＥＮＣＯＤＥＲ；ＶＡＥ）を挿入することができる。オートエンコーダの役割は、プロセスの状態情報を潜在的に保持しながら入力データ空間をサイズの小さい固定幅ベクトルに圧縮することである。

多層画像又は多層画像マトリクスとして状態ｓをモデリングする処理に利用できる他の手法として、構造データの埋め込み又はグラフニューラルネットワークを適用できる（例えば、スカーセリ（Ｓｃａｒｓｅｌｌｉ）らによる「ＴｈｅＧｒａｐｈＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ（グラフニューラルネットワークモデル）」２００９年を参照）。

本発明に係る機械制御装置ＭＣは、知的機械制御装置であり、この知的機械制御装置は、機械加工ヘッドＨ（例えば、レーザ加工機の切断ヘッド）の機械加工プロセスを制御して、レーザ加工機Ｌの駆動部ＡＤの軸を連係動作させることに利用される。機械制御装置ＭＣは、機械学習装置ＭＬＤとペアで動作でき、機械学習装置ＭＬＤは、大量の数理演算に対応した中央処理装置ＣＰＵ及び画像処理装置ＧＰＵと、メモリと、トレーニング済みモードを含む記憶装置とで構成されてよい。好ましい実施形態において、前述した機械学習装置ＭＬＤの機械学習方法として、強化学習又は深層Ｑ学習を利用することが提案される。Ｑ学習の詳細については、米国特許出願第２０１５／０１００５３０号明細書を参照されたい。この米国出願の開示内容を本願の一部として援用する。標準的なＱ学習は、Ｑテーブルを作成することを含み、Ｑテーブルは、状態－行動［ｓ，ａ］（プロセスの現在の状態である状態及び現在の状態に関して生じ得る次のステップである行動）の組み合わせの品質を示したものである。意思決定エージェントＤＡは、Ｑテーブルに従って動作して各ステップを動的に決定する。決定したステップ毎に、意思決定エージェントＤＡは、レーザ加工機Ｌの環境から報酬を受け取る。意思決定エージェントＤＡの目標は、全てのステップの報酬全体を最大化することである。この目的のために、Ｑテーブルは、観察されたレーザ加工機Ｌのセンサ信号と、割り当てられた又は関連付けられた報酬と（更に、次のステップに対して予想される最大報酬と）を用いて継続的に更新される。深層Ｑ学習の場合は、ディープ（畳み込み）ニューラルネットワークＣＮＮによって関数Ｑが提示される。関連付けられた観察内容及びニューラルネットワークの非線形性に起因する解の不安定性を克服するために、経験再生技術が利用されると好ましい。

行動ａの空間は、加工の方向（輪郭を切断する場合）及び開始点（複数の開始点があり得る場合）を含む、次に加工する部品の選択肢から形成される。行動空間が広大であるか又は連続している場合には、アクタークリティック法がより適している。Ｑ学習とアクタークリティックの主な違いは、１つの人工ニューラルネットワーク（略号：ＡＮＮ）を用いてＱ関数（品質値への状態軸と行動軸のマッピング）をモデル化する代わりに、アルゴリズムが、２つのＡＮＮ、すなわちアクター（状態の関数としての行動）とクリティック（状態の関数としての値）を用いてプロセスをモデル化する点である。各ステップにおいて、アクターは、取るべき行動を予測し、クリティックは、その行動がどのように良いのかを予測する。アクターとクリティックは並行してトレーニングされる。アクターはクリティックに依存する。

切断シーケンスの場合、クリティックエージェントは、現在の状況（現在の状態）における理論上最高の将来の結果、及び連続空間内に符号化された行動（切断計画上の次の部品の座標）を評価できる。その際、最適化プロセスは、より良い結果に繋がり得る、実行すべき次の行動についてアクターに問い合わせる必要がある。

センサ信号ｓｅｎｓによって与えられる経験データ（ニューラルネットワーク係数及び他の構成データ）は、記憶装置ＭＥＭに格納されると共に、ネットワーク、共有ドライブ、若しくはクラウドサービスを介して、又は機械技術者によって手動で分配されて、２つ以上の機械加工環境の間で共有されてよい。

図３に、内部へのメッセージ及び外部へのメッセージと共に意思決定エージェントＤＡの構造図を示す。受信したセンサ信号に基づいてレーザ切断機Lの環境の状態ｓが算出される。算出された状態には、既に切断された輪郭が第１部として、現在の切断状態における切断計画のヒートマップが第２部として示される。切断計画Ｐも、意思決定エージェントＤＡに提供されてよい。報酬関数モジュールＲＦは、観察データ（センサ信号ｓｅｎｓ）に適用される報酬関数を提供する。この入力データに基づき、意思決定エージェントＤＡは、（機械制御装置ＭＣによって命令される）レーザ加工機Ｌが次に取るべき行動ａを提供する。

図４に、意思決定エージェントＤＡによって処理される状態ｓを模式的に示す。状態は、２つの下位状態Ｓ１及びＳ２を含む。第１の下位状態Ｓ１は、既に加工された部品及びこれから加工される部品を含めた、切断ジョブの進捗を表す。第２の下位状態Ｓ２は、切断位置におけるワークピースへの熱エネルギの局部投入を表すワークピースのヒートマップを示すもので、これによりワークピース及び／又は切断部品内の区画に生じ得る過熱が明らかになるため、第２の下位状態Ｓ２は品質の測定値として機能する。

図５から判るように、学習プロセスは、制御命令ＣＩに示される機械加工ヘッドの機械加工シーケンスを生成することから成り、この生成は、報酬予測意思決定エージェントＤＡを用いてその現在の経験に基づいて行われ、機械加工は、観察内容（すなわち、全機械加工時間、材料又はワークピースのヒートマップ、及び／又は衝突の可能性などに関するセンサ信号ｓｅｎｓ）を記録しながら実行される。次に、観察内容がステップ１４において解釈されて、最適化で考慮しなければならない各現象に対応するコスト関数又は報酬関数が生成される。

本発明者らは、複数の異なる最適化目標に対応する複数の異なる報酬関数のセットから選択することを提案する。切断時間最適化の報酬関数には、合計移動距離に負の符号を付けたものが使用される。熱最適化の報酬関数には、到達した局部最高温度に負の符号を付けたものが使用される。これに代えて、全切断輪郭に沿った温度の積分測定値（又は、温度のべき関数）に負の符号を付けたものを利用することもできる。衝突最適化の報酬関数については、衝突しない場合の０値、及び生じ得る衝突の回数を負の定数に掛けた値が存在する。

ステップ１５において、包括的報酬関数が、（限定ではないが）ユーザ設定による優先順位の重みを用いて一次式の組み合わせとして算出される。優先順位は、現在の必要事項（安全対速度、速度対安全、安全＋品質など）に従って機械のオペレータによって設定される。一次式の組み合わせの係数は経験によって特定される。例えば、
平均的な最適化の場合：距離_報酬＊１．０＋熱_報酬＋衝突_報酬＊１．０
速度の最適化の場合：距離_報酬＊１０．０＋熱_報酬＊１．０＋衝突_報酬１．０
などのように設定される。

局部的報酬関数及び包括的報酬関数を評価した後、ステップ１６において、意思決定エージェントの経験データ（すなわち、使用されたニューラルネットワークの重み）が更新される。ここで、重要なのは、学習工程の実行及び観察段階は、実機（たとえば、限定ではないが、熱画像生成用の赤外線光センサ、潜在的な衝突の検出用の３Ｄ背景再構築センサ、駆動電流センサ、加速度センサなど、該当するセンサを備えたレーザ切断機）において行われると共に、機械学習シミュレーションソフトウェアなどの仮想環境においても行われることである。

仮想環境の場合、観察データは、対応するシミュレーション技術（熱分布マップに対応するＦＥ法、傾斜部品の検出に対応する機械的シミュレーションなど）を用いて演算される。仮想シミュレーション学習は、好ましい方法であるが、これは、非常に多数の異なる機械加工計画（仮想的に生成された機械加工計画及びシミュレーションされた加工計画）、通常は、数十万の加工計画について学習を行うことが好ましいためである。この点は、最良の機械加工シーケンス予想の全体的パフォーマンスを大きく左右する。

図６に、モデル又は畳み込みニューラルネットワークＣＮＮをトレーニングするトレーニング工程を示す。学習及びトレーニングの開始後、ネストが生成される。「ネスト」の用語は、本明細書の文脈において定義されたい。

ネストは、標準的なネスティングパラメータと、部品のリストとを用いて生成でき、リスト内の部品は、例えば、異なる部品の平均個数、平均寸法分布、材料のタイプなどを含む製造サンプリング統計を利用して製造部品データベースからランダムにサンプリングされる。次に、本工程は、図５のステップ１３から１６に係る学習セッションを１回実行するステップに進んでよい。このステップの後、本工程は、取得したトレーニングの経験データ（例えば、ニューラルネットワーク係数）を、機械学習装置ＭＬＤと協働する全ての機械制御装置ＭＣに配布するステップに進んでよい。

図７に、機械制御装置ＭＣによるレーザ切断ヘッドＨの制御に使用される制御命令ＣＩを生成する処理の別のフローチャートを示す。本方法の開始後、ステップＳ７１において、切断計画Ｐが読み込まれる。この読み込みは、入力インターフェースＪＮを介して実行されてよい。切断計画Ｐは、構造化されたフォーマットのファイルとして受け取られてよい。ステップＳ７２において、センサ信号がレーザ加工機Ｌの環境から受信される。ステップＳ７３において、受信したセンサ信号ｓｅｎｓを全て考慮して、状態が決定又は算出される。ステップＳ７４において、次に行うべき行動ａが、意思決定エージェントＤＡによって算出される。算出された行動ａに基づき、ステップＳ７５において、制御命令ＣＬが提供されてよい。好ましい実施形態において、行動ａは、伝達関数を用いて、制御命令ＣＩに変換される。単純な実施形態では、伝達関数が識別情報であり、行動ａ自体が、機械制御装置ＭＣに送られる制御命令ＣＩと同じものとなる。他の実施形態において、より複雑な別の伝達関数が適用されてよく、このような伝達関数としては、例えば、再フォーマット、各レーザ加工機の諸元及び／又はレーザ加工機にインストールされたソフトウェアのバージョンへの適合、安全関数の適用などが挙げられる。算出された制御命令ＣＩを機械制御装置ＭＣに提供した後、ステップＳ７６において、更なる手動入力又は検証を行わないで、受け取った命令を直ちに実行するように、機械制御装置ＭＣに命令することができる。レーザ加工機の動作中、センサ信号ｓｅｎｓが継続的に観察されて意思決定エージェントＤＡに送られる（図７ではステップＳ７２にループされる）。

開示した実施形態の他の変形例は、図面、明細書、及び付属の請求項を精査することで、請求項に記載された発明を実施する際に当業者が理解及び実践できるものである。請求項において、「含む」の用語は、他の要素又はステップが存在することを排除しない表現であり、不定冠詞による「１つ」という表現は、複数個の存在を排除するものではない。

単一のユニット又は装置、すなわち、意思決定エージェントＤＡ又は機械学習装置ＭＬＤは、請求項に記載された複数の項目の機能を実施してよい。特定の測定値が複数の異なる従属請求項に記載されているという単なる事実は、これらの測定値を組み合わせて活用できないことを示さない。

前述した方法に従って制御命令ＣＩを生成する機械学習装置ＭＬＤは、コンピュータプログラムのプログラムコード手段及び／又は専用ハードウェアとして実施できる。

コンピュータプログラムは、他のハードウェアと共に提供される、又は他のハードウェアの一部として提供される光記憶媒体又は固体型媒体などの適切な媒体に格納／配布されてよいが、インターネット又は他の有線／無線通信システムなど、他の形式で配布されてもよい。

請求項内の参照符号は、範囲を限定するものとして解釈されるべきではない。

明示的に記載されていない限り、図面に関連付けて説明した各実施形態、又はその各側面及び各特徴は、互いに組み合わせること又は入れ替えることに意味があり、本発明の趣旨に沿うものであれば、記載された発明の範囲を限定又は広げることなく、組み合わせること又は入れ替えることができる。本発明の特定の実施形態又は特定の図に関して記述された利点は、適用可能である場合には、本発明の他の実施形態の利点でもある。

Claims

ワークピース内の一連の輪郭を切断して前記ワークピースから被加工部品（２）を切り出すように、レーザ加工機（Ｌ）の切断ヘッド（Ｈ）を制御する制御命令（ＣＩ）を算出する、コンピュータで実施される方法であって、
－被加工部品（２）内の穴を含めて前記被加工部品（２）を表す一連の幾何形状である符号化された切断計画（Ｐ）を読み込むステップ（Ｓ７１）と、
－一連のセンサ信号（ｓｅｎｓ）を用いて状態（ｓ）を継続的に特定するステップ（Ｓ７３）であって、前記状態（ｓ）が、前記レーザ加工機（Ｌ）の状態、切断された前記被加工部品（２）の状態、及び切断対象である前記ワークピースの状態を含む、ステップ（Ｓ７３）と、
－前記機械加工ヘッド（Ｈ）が次に取るべき行動（ａ）を動的に算出する、コンピュータで実施される意思決定エージェント（ＤＡ）を提供し、前記符号化された切断計画（Ｐ）と特定された前記状態（ｓ）とを有するトレーニング済みモデルにアクセスすることによって、算出された前記行動（ａ）に基づいて前記切断計画（Ｐ）を実行するための制御命令（ＣＩ）を提供するステップと、を含み、
前記モデルは、入力として、多層画像の形式、好ましくは多層画像マトリクスの形式で、前記状態（ｓ）及び前記符号化された切断計画（Ｐ）を受け取り、出力として、次回の実行のために前記レーザ加工機（Ｌ）の機械制御装置（ＭＣ）に送られる前記行動（ａ）を提供する、方法。
請求項１に記載の方法であって、
前記行動（ａ）の実行後に、前記各行動（ａ）が、受信したセンサ信号（ｓｅｎｓ）に基づいて報酬を受け取ること、及び
前記意思決定エージェント（ＤＡ）が、全ての行動（ａ）の総合報酬を最大化する最適化関数を実行する報酬モジュール（ＲＦ）を含むこと、
を特徴とする方法。
請求項１または２に記載の方法であって、
算出された前記行動（ａ）に基づいた前記レーザ加工機（Ｌ）による前記制御命令（ＣＩ）の実行後及び／又は実行中に、前記一連のセンサ信号から経験データが収集され、収集された前記経験データは、前記モデルを継続して改善するために、前記モデルにフィードバックされること、
を特徴とする方法。
請求項１から３のいずれか１項に記載の方法であって、
前記状態（ｓ）は、多層画像の形式、好ましくは多層画像マトリクスの形式で示されると共に、前記状態（ｓ）は、第１の下位状態（ｓ１）であって、既に切断された被加工部品とまだ切断されていない被加工部品とを区別できる、切断中の前記ワークピースのレイヤ画像の形式の第１の下位状態（ｓ１）と、第２の下位状態（ｓ２）であって、前記切断計画（Ｐ）に従って切断されているワークピースのヒートマップが示された、前記ワークピースのレイヤ画像の形式の第２の下位状態（ｓ２）と、を少なくとも含むこと、
を特徴とする方法。
請求項２から４のいずれか１項に記載の方法であって、
切断時間報酬関数、熱最適化報酬関数、温度の積分測定値報酬関数、及び衝突回避報酬関数から成る群から報酬関数（ＲＦ）が選択されること、
を特徴とする方法。
請求項５に記載の方法であって、
前記報酬関数（ＲＦ）は、ユーザ定義の優先順位を重みとして利用する、前記報酬関数全ての一次結合式であること、
を特徴とする方法。
請求項１から６のいずれか１項に記載の方法であって、
最適化目標ごとに個別の報酬関数（ＲＦ）が決定されること、
を特徴とする方法。
請求項１から７のいずれか１項に記載の方法であって、
自己学習エージェントとして動作する前記意思決定エージェント（ＤＡ）は、Ｑ関数を用いて生成できるＱテーブルを利用してモデル化でき、及び／又は、Ｑテーブルに従って動作でき、前記Ｑテーブルに、前記レーザ加工機（Ｌ）のステップ毎に次の行動を動的に評価及び算出するための状態－動作の組合せの品質が定形化されること、
を特徴とする方法。
請求項１から８のいずれか１項に記載の方法であって、
前記意思決定エージェント（ＤＡ）は、Ｑ関数を実装し、ディープニューラルネットワーック、特に、深層畳み込みニューラルネットワーク（ＣＮＮ）によって提示され得ること、
を特徴とする方法。
請求項１から９のいずれか１項に記載の方法であって、
前記意思決定エージェント（ＤＡ）は、少なくとも１つのニューラルネットワークとして実施され、トレーニングに経験再生技術を利用すること、
を特徴とする方法。
請求項１から１０のいずれか１項に記載の方法を実行するように適合された機械学習装置（ＭＬＤ）であって、
－前記被加工部品（２）内の穴を含めて前記被加工部品（２）を表す一連の幾何形状である前記符号化された切断計画（Ｐ）を読み込む（Ｓ７１）ように構成された入力インターフェース（ＪＮ）と、
－前記レーザ加工機（Ｌ）による前記ワークピースの切断に関する状態を、一連のセンサ（Ｓ）を用いて継続的に特定する（Ｓ７３）ように構成された観察解釈モジュール（ＯＩＭ）と、
－コンピュータで実施される意思決定エージェント（ＤＡ）であって、前記機械加工ヘッド（Ｈ）が次に取るべき行動（ａ）を動的に算出し、前記符号化された切断計画（Ｐ）と特定された前記状態（ｓ）とを有するトレーニング済みモデルにアクセスすることによって、算出された前記行動（ａ）に基づいて前記切断計画（Ｐ）を実行するための制御命令（ＣＩ）を提供するように構成された意思決定エージェント（ＤＡ）と、を含み
前記モデルは、入力として、多層画像の形式、好ましくは多層画像マトリクスの形式で、前記状態（ｓ）及び前記符号化された切断計画（Ｐ）を受け取り、出力として、次回の実行のために前記レーザ加工機（Ｌ）の機械制御装置（ＭＣ）に送られる行動（ａ）を提供する、機械学習装置（ＭＬＤ）。
請求項１１に記載の機械学習装置（ＭＬＤ）内で用いられるコンピュータで実施される意思決定エージェント（ＤＡ）。
プログラム要素を含むコンピュータプログラムであって、
前記プログラム要素は、コンピュータのメモリに読み込まれたときに、請求項１から１０のいずれか１項に記載された方法に従ってレーザ加工機（Ｌ）の機械加工ヘッド（Ｈ）を制御する制御命令（ＣＩ）を算出するために、前記コンピュータに前記方法の各ステップを実行させ、前記コンピュータは、一連のセンサ信号（ｓｅｎｓ）によって前記レーザー加工機（Ｌ）の状態を連続的に決定するように構成された一連のセンサを含む、ことを特徴とするコンピュータプログラム。