JP7464383B2

JP7464383B2 - ワークモデルの修正量を学習する機械学習装置、制御装置、加工システム、及び機械学習方法

Info

Publication number: JP7464383B2
Application number: JP2019222979A
Authority: JP
Inventors: 賢一小川; 隆志永冨
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2024-04-09
Anticipated expiration: 2039-12-10
Also published as: US20210174227A1; JP2021092954A; DE102020132093A1; CN112947308A

Description

本発明は、ワークモデルの修正量を学習する機械学習装置、制御装置、加工システム、及び機械学習方法に関する。

ロボットの動作を学習する機械学習装置が知られている（例えば、特許文献１）。

特開２０１７－０６４９１０号公報

ワークの目的形状をモデル化したワークモデルに基づいてワークを加工したときに、加工後のワークと目的形状との間に誤差が生じる場合がある。従来、このような誤差を小さくすることができる技術が求められている。

本開示の一態様において、ワークをモデル化したワークモデルを、該ワークモデルに基づいて加工されたワークの形状を目的形状に一致させるように修正する修正量を学習する機械学習装置は、ワークを加工する工作機械の加工状態データ、及び、ワークモデルに基づいて工作機械が加工したワークの形状と目的形状との誤差の測定データを、ワークを加工する環境の現在状態を表す状態変数として観測する状態観測部と、状態変数を用いて、修正量を誤差と関連付けて学習する学習部とを備える。

本開示の他の態様において、ワークをモデル化したワークモデルを、該ワークモデルに基づいて加工されたワークの形状を目的形状に一致させるように修正する修正量を学習する機械学習方法は、ワークを加工する工作機械の加工状態データ、及び、ワークモデルに基づいて工作機械が加工したワークの形状と目的形状との誤差の測定データを、ワークを加工する環境の現在状態を表す状態変数として観測し、状態変数を用いて、修正量を誤差と関連付けて学習する。

本開示によれば、学習部の学習結果を用いることで、誤差を小さくするのに最適なワークモデルの修正量を、自動的に求めることができるようになる。修正量を自動的に求めることができれば、加工状態データから、最適な修正量を迅速に決定することができる。したがって、様々な加工状態の下で修正量を求める作業を大幅に簡単化することができる。また、膨大なデータ集合に基づいて修正量を学習することから、誤差を小さくするのに最適な修正量を高精度に求めることができる。

一実施形態に係る機械学習装置のブロック図である。一実施形態に係る工作機械の斜視図である。図２に示す工作機械によって作製されるワークの一例を示す。図３に示すワークの目的形状をモデル化したワークモデルを示す。図４に示すワークモデルと、加工後のワークとの誤差を説明するための図であって、該誤差が、ワークモデルに対してワークが突出することによって生じる突出誤差である場合を示している。図４に示すワークモデルと、加工後のワークとの誤差を説明するための図であって、該誤差が、ワークモデルに対してワークが凹むことによって生じる凹み誤差である場合を示している。他の実施形態に係る機械学習装置のブロック図である。図７に示す機械学習装置が実行する学習サイクルのフローの一例を示す。ニューロンのモデルを模式的に示す。多層ニューラルネットワークのモデルを模式的に示す。さらに他の実施形態に係る機械学習装置のブロック図である。一実施形態に係る加工システムのブロック図である。図２に示す工作機械によって作製されるワークの他の例を示す。

以下、本開示の実施の形態を図面に基づいて詳細に説明する。なお、以下に説明する種々の実施形態において、同様の要素には同じ符号を付し、重複する説明を省略する。まず、図１を参照して、一実施形態に係る機械学習装置１０について説明する。機械学習装置１０は、ワークＷをモデル化したワークモデルＷＭを、該ワークモデルＷＭに基づいて工作機械１００（図２）が加工したワークＷの形状を所定の目的形状に一致させるように修正する修正量Ｃを学習するための装置である。

以下、図２を参照して、一実施形態に係る工作機械１００について説明する。工作機械１００は、土台テーブル１０２、並進移動機構１０４、支持台１０６、揺動移動機構１０８、揺動部材１１０、回動移動機構１１２、ワークテーブル１１４、主軸ヘッド１１６、工具１１８、及び主軸移動機構１２０を有する。

土台テーブル１０２は、ベースプレート１２２、及び枢支部１２４を有する。ベースプレート１２２は、略矩形の平板状の部材であって、並進移動機構１０４の上に配置されている。枢支部１２４は、ベースプレート１２２の上面１２２ａから上方へ突出するように、該ベースプレート１２２に一体に形成されている。

並進移動機構１０４は、土台テーブル１０２を、機械座標系ＣＭのｘ軸方向及びｙ軸方向へ移動させる。具体的には、並進移動機構１０４は、土台テーブル１０２をｘ軸方向へ移動させるｘ軸ボールねじ機構と、土台テーブル１０２をｙ軸方向へ移動させるｙ軸ボールねじ機構と、ｘ軸ボールねじ機構を駆動するサーボモータと、ｙ軸ボールねじ機構を駆動するサーボモータ（いずれも図示せず）とを有する。

支持台１０６は、土台テーブル１０２に固定されている。具体的には、支持台１０６は、土台部１２６、及びモータ収容部１２８を有する。土台部１２６は、略四角柱状の中空部材であって、ベースプレート１２２の上面１２２ａから上方へ突出するように、該上面１２２ａに固定されている。モータ収容部１２８は、略半円状の中空部材であって、土台部１２６の上端部に一体に形成されている。揺動移動機構１０８は、サーボモータ等を有し、土台部１２６及びモータ収容部１２８の内部に設置されている。揺動移動機構１０８は、揺動部材１１０を軸線Ａ１の周りに回動させる。

揺動部材１１０は、支持台１０６及び枢支部１２４に回動可能に支持されている。具体的には、揺動部材１１０は、機械座標系ＣＭのｘ軸方向に対向配置された一対の保持部１３０及び１３２と、該保持部１３０及び１３２に固定されたモータ収容部１３４とを有する。保持部１３０は、揺動移動機構１０８（具体的には、サーボモータの出力シャフト）に機械的に連結されている一方、保持部１３２は、支持シャフト（図示せず）を介して、枢支部１２４に枢支されている。モータ収容部１３４は、略円筒状の中空部材であって、保持部１３０及び１３２の間に配置され、該保持部１３０及び１３２に一体に形成されている。

回動移動機構１１２は、サーボモータ等を有し、モータ収容部１３４の内部に設置されている。回動移動機構１１２は、ワークテーブル１１４を軸線Ａ２の周りに回動させる。軸線Ａ２は、軸線Ａ１と直交し、揺動部材１１０とともに軸線Ａ１周りに回転する軸線である。ワークテーブル１１４は、略円板状の部材であって、その上に治具（図示せず）を介してワークＷがセットされる。ワークテーブル１１４は、回動移動機構１１２（具体的には、サーボモータの出力シャフト）に機械的に連結されている。

主軸ヘッド１１６は、ｚ軸方向へ移動可能に設けられ、その先端に工具１１８が着脱可能に取り付けられる。主軸ヘッド１１６は、工具１１８を軸線Ａ３周りに回動させ、回動する工具１１８によって、ワークテーブル１１４にセットされたワークＷを加工する。軸線Ａ３は、軸線Ａ１と直交する軸線である。主軸移動機構１２０は、例えば、主軸ヘッド１１６をｚ軸方向へ往復動させるボールねじ機構と、該ボールねじ機構を駆動するサーボモータ(ともに図示せず)とを有し、主軸ヘッド１１６を機械座標系ＣＭのｚ軸方向へ移動させる。

工作機械１００には、機械座標系ＣＭが設定されている。この機械座標系ＣＭは、３次元空間内に固定され、工作機械１００の動作を制御するときの基準となる制御座標系である。本実施形態においては、機械座標系ＣＭは、そのｘ軸が、揺動部材１１０の回転軸線Ａ１と平行であり、そのｚ軸が鉛直方向と平行となるように、設定されている。

工作機械１００は、並進移動機構１０４、揺動移動機構１０８、回動移動機構１１２、及び主軸移動機構１２０によって、工具１１８を、ワークテーブル１１４にセットされたワークＷに対して５軸方向へ相対的に移動させる。したがって、並進移動機構１０４、揺動移動機構１０８、回動移動機構１１２、及び主軸移動機構１２０は、工具１１８とワークＷとを相対的に移動させる移動機構１３６を構成する。

工作機械１００は、加工プログラムＭＰに従って動作し、移動機構１３６によって工具１１８とワークＷとを相対的に移動させつつ、主軸ヘッド１１６が回転駆動している工具１１８によってワーク基材を加工し、ワークＷを形成する。図３に、工作機械１００によって加工されたワークＷの一例を示す。

ここで、加工プログラムＭＰを生成するとき、まず、オペレータは、ＣＡＤ等の製図装置を用いて、製品としてのワークＷの目的形状をモデル化したワークモデルＷＭ１を作成する。図４に、ワークモデルＷＭ１の例を示す。製図装置がモデルを作成する３次元仮想空間には、モデル座標系ＣＷが設定され、ワークモデルＷＭ１を構成する表面モデルＳＭ１は、モデル座標系ＣＷに設定されたモデル点又はモデル線によって画定されている。

次いで、オペレータは、作成したワークモデルＷＭ１を、ＣＡＭ等のプログラム生成装置に入力し、プログラム生成装置は、該ワークモデルＷＭ１に基づいて、加工プログラムＭＰ１を生成する。工作機械１００は、加工プログラムＭＰ１に従って動作してワーク基材を加工し、その結果、ワークＷが形成される。

この場合において、現実に形成されたワークＷの形状と、該ワークＷの目的形状（つまり、ワークモデルＷＭ１）との間に誤差が生じ得る。このような誤差をキャンセルするための一つの方策として、オペレータは、製図装置を操作してワークモデルＷＭ１を手動で修正し、プログラム生成装置によって、修正後のワークモデルに基づいて加工プログラムＭＰを再度生成することがある。

本実施形態に係る機械学習装置１０は、誤差をキャンセルするためにワークモデルＷＭ１を修正する修正量Ｃを自動で学習する。機械学習装置１０は、プロセッサ（ＣＰＵ、ＧＰＵ等）及びメモリ（ＲＯＭ、ＲＡＭ等）を有するコンピュータ、又は、学習アルゴリズム等のソフトウェアから構成され得る。

図１に示すように、機械学習装置１０は、状態観測部１２、及び学習部１４を備える。状態観測部１２は、工作機械１００の加工状態データＣＤ、及び、ワークモデルＷＭに基づいて工作機械１００が加工した後のワークＷの形状と目的形状との誤差δの測定データを、ワークＷを加工する環境の現在状態を表す状態変数ＳＶとして観測する。

加工状態データＣＤは、工作機械１００の加工精度に影響を与え得るパラメータのデータであって、例えば、工作機械１００の寸法誤差Ｅ、工作機械１００の温度Ｔ１、工作機械１００の周囲の雰囲気温度Ｔ２、工作機械１００の熱量Ｑ、工作機械１００の消費電力Ｐ、工作機械１００の熱変位量ξ、及び、工作機械１００の動作パラメータＯＰの少なくとも１つを含む。

寸法誤差Ｅは、例えば、軸線Ａ１と軸線Ａ２との間のずれＥ１を含む。ここで、揺動部材１１０の回転軸線Ａ１と、ワークテーブル１１４の回転軸線Ａ２とは、設計寸法上は直交するように設計されているが、実際の工作機械１００においては、軸線Ａ１と軸線Ａ２とが直交せずに、互いからずれてしまうことが起こり得る。このようなずれＥ１は、工作機械１００の加工精度を低下させる原因となり得る。ずれＥ１は、ずれ測定器を用いて予め測定され、機械座標系ＣＭにおけるベクトル（距離と方向）としてデータ化される。

また、寸法誤差Ｅは、機械座標系ＣＭのｘ軸に対する軸線Ａ１の傾斜角度Ｅ２、機械座標系ＣＭのｚ軸に対する軸線Ａ３の傾斜角度Ｅ３、土台テーブル１０２の実際の移動経路のｘ軸又はｙ軸に対する傾斜角度Ｅ４等を有してもよい。これら傾斜角度Ｅ２、Ｅ３、及びＥ４も、ずれ測定器を用いて測定され、機械座標系ＣＭにおけるベクトル（角度と傾斜方向）としてデータ化される。

工作機械１００の温度Ｔ１は、工作機械１００のコンポーネント（すなわち、土台テーブル１０２、並進移動機構１０４、支持台１０６、揺動移動機構１０８、揺動部材１１０、回動移動機構１１２、ワークテーブル１１４、主軸ヘッド１１６、工具１１８、主軸移動機構１２０）の温度である。工作機械１００の温度Ｔ１は、加工中又は加工終了後に、工作機械１００のコンポーネントに設けられた第１の温度センサによって測定され得る。

例えば、第１の温度センサは、工作機械１００の並進移動機構１０４のｘ軸若しくはｙ軸ボールねじ軸、揺動移動機構１０８若しくは回動移動機構１１２のサーボモータの出力シャフト、又は、主軸移動機構１２０のボールねじ軸等、熱変位し易い部材に取り付けられ、工作機械１００の加工中又は加工終了後に、該部材の温度Ｔ１を測定する。雰囲気温度Ｔ２は、工作機械１００の外部に設置された第２の温度センサによって測定される。第２の温度センサは、工作機械１００の加工前、加工中又は加工後に、雰囲気温度（つまり、大気温度）Ｔ２を測定する。

熱量Ｑは、加工中に工作機械１００のコンポーネント（例えば、ボールねじ軸）に蓄積された熱量を示す。一例として、上述の第１の温度センサは、工作機械１００の加工前に温度Ｔ１_１を測定し、その後、工作機械１００の加工中の所定の時点（又は、加工終了時点）に、温度Ｔ１_２を測定する。熱量Ｑは、温度Ｔ１_１と温度Ｔ１_２との差ΔＴ（＝Ｔ１_２－Ｔ１_１）と、工作機械１００のコンポーネントの熱容量Ｂとから、熱量Ｑ＝Ｂ×ΔＴなる式から求められ得る。なお、熱量Ｑは、工作機械１００に設けた熱量計を用いて測定されてもよい。

消費電力Ｐは、例えば、工作機械１００の加工開始から加工終了までに該工作機械１００で消費（又は、工作機械１００に入力）された電力である。具体的には、工作機械１００に設けられた全てのサーボモータ及びスピンドルモータに入力された電力（又は、電流若しくは電圧）が電力計（又は、電流計若しくは電圧計）によって測定され、この測定値から、消費電力Ｐが測定され得る。代替的には、消費電力Ｐは、工作機械１００に設けられた複数（本実施形態では、計５個）のサーボモータ及び１個又は複数（本実施形態では１個）のスピンドルモータの各々の消費電力であってもよい。

熱変位量ξは、工作機械１００のコンポーネント（例えば、ボールねじ軸）が、加工中に生じた熱に起因して変位（例えば熱膨張）した変位量を示す。一例として、熱変位量ξは、上述の熱量Ｑを、既知の実験式に導入することによって、演算により推定され得る。他の例として、熱変位量ξは、変位測定器（変位計、リニアスケール等）を用いて、工作機械１００の加工中又は加工後に実測されてもよい。

動作パラメータＯＰは、移動機構１３６（具体的には、並進移動機構１０４、揺動移動機構１０８、回動移動機構１１２、又は主軸移動機構１２０）の加速度α、該移動機構１３６の加速又は減速に要する時間を決定する時定数τ、該移動機構１３６の制御の応答速度を決定する制御ゲインＧ、及び、該移動機構１３６の慣性モーメントＭの少なくとも１つを含む。

例えば、動作パラメータＯＰとして、並進移動機構１０４、揺動移動機構１０８、回動移動機構１１２、及び主軸移動機構１２０のサーボモータの加速度α、時定数τ、制御ゲインＧ、及び慣性モーメントＭがそれぞれ取得され得る。なお、加速度αとして、並進移動機構１０４が移動する土台テーブル１０２のｘ軸及びｙ軸方向への加速度が取得されてもよい。動作パラメータＯＰは、オペレータによって予め定められ、加工プログラムＭＰに規定される。

誤差δは、ステレオカメラを有する３次元スキャナ、又は３次元測定機等の測定装置によって測定され得る。具体的には、工作機械１００が加工した後のワークＷの形状が測定装置によって測定され、次いで、測定装置の測定結果と、目的形状（ワークモデルＷＭ１）の寸法情報とに基づいて、ワークＷの形状と目的形状との誤差δが測定され得る。なお、測定装置は、ワークモデルＷＭ１の入力を受け付けて、実測したワークＷの形状とワークモデルＷＭ１の形状との誤差δを演算するように構成されてもよい。

以下、図４～図６を参照して、誤差δについて説明する。図４は、ワークモデルＷＭ１において、測定装置によって測定された加工後のワークＷの形状と目的形状（ワークモデルＷＭ１）との間で誤差δが生じている領域Ｆを示している。例えば、領域Ｆは、図５に示すように、加工後のワークＷの表面ＳＷが、該表面ＳＷに対応するワークモデルＷＭ１の表面モデルＳＭ１に対して外方へ突出している領域である。又は、領域Ｆは、図６に示すように、加工後のワークＷの表面ＳＷが、該表面ＳＷに対応するワークモデルＷＭ１の表面モデルＳＭ１に対して内方へ凹んでいる領域である。

一例として、誤差δは、ワークモデルＷＭ１上に予め定められた複数の測定点Ｐｍ（ｍ＝１，２，３，・・・）と、該複数の測定点Ｐｍに対応する、加工後のワークＷ上の複数の測定点Ｐｍ’との間の複数の誤差δｍを有する。この場合、測定装置は、加工後のワークＷ上の複数の測定点Ｐｍ’で形状を測定する。他の例として、誤差δは、複数の誤差δｍのうちの最大値δｍａｘ、複数の誤差δｍの積算値δＳ＝Σδｍ、又は、複数の誤差δｍの平均値δＡ＝（Σδｍ）／ｍであってもよい。

さらに他の例として、誤差δは、表面ＳＷと表面モデルＳＭ１との間の領域Ｆの体積δＶ（つまり、領域Ｆにおける誤差の積分値）であってもよい。この場合において、測定装置は、加工後のワークＷの形状の測定値に基づいて、該加工後のワークＷをモデル化した加工後ワークモデルＭＭを生成してもよい。この加工後ワークモデルＭＭとワークモデルＷＭ１とに基づいて、体積δＶを求めることができる。状態観測部１２は、上述のような加工状態データＣＤ及び誤差δの測定データを、状態変数ＳＶとして観測する。

学習部１４は、機械学習と総称される任意の学習アルゴリズムに従って、ワークモデルＷＭ１の修正量Ｃを学習する。具体的には、工作機械１００が加工プログラムＭＰ１に従って加工したワークＷの形状と目的形状（ワークモデルＷＭ１）との誤差δが測定された場合、製図装置は、ワークモデルＷＭ１を修正量Ｃだけ修正することにより、新たなワークモデルＷＭ２を作成する。なお、修正量Ｃは、モデル座標系ＣＷにおけるベクトル（大きさ及び方向）として表される。

そして、プログラム生成装置は、ワークモデルＷＭ２に基づいて加工プログラムＭＰ２を生成し、工作機械１００は、該加工プログラムＭＰ２に従ってワーク基材を加工してワークＷを形成する。測定装置は、加工後のワークＷの形状と目的形状との誤差δの測定データを測定する。このようなワークモデルＷＭ１の修正と、修正後のワークモデルＷＭ２に基づく加工の試行を繰り返す毎に、状態観測部１２は状態変数ＳＶを観測し、学習部１４は、状態変数ＳＶを含むデータ集合に基づいて学習を反復実行する。

この学習サイクルを繰り返すことにより、学習部１４は、修正量Ｃと誤差δとの相関性を暗示する特徴を自動的に識別することができるようになる。学習アルゴリズムの開始時には、修正量Ｃと誤差δとの相関性は実質的に未知であるが、学習部１４は、学習を進めるに従って徐々に特徴を識別して相関性を解釈する。

修正量Ｃと誤差δとの相関性が、ある程度信頼できる水準まで解釈されると、学習部１４が反復出力する学習結果は、現在状態のワークＷを加工するときに、誤差δを小さくするためにワークモデルＷＭ１をどの程度修正すべきかという行動の選択（つまり意思決定）を行うために使用できるものとなる。

以上のように、機械学習装置１０は、状態観測部１２が観測した状態変数ＳＶ（加工状態データＣＤ、測定データδ）を用いて、学習部１４が機械学習アルゴリズムに従ってワークモデルＷＭ１の修正量Ｃを学習するものである。機械学習装置１０によれば、学習部１４の学習結果を用いることで、誤差δを小さくするのに最適な修正量Ｃを、自動的に求めることができるようになる。

修正量Ｃを自動的に求めることができれば、加工状態データＣＤから、最適な修正量Ｃを迅速に決定することができる。したがって、様々な加工状態の下で修正量Ｃを求める作業を大幅に簡単化することができる。また、膨大なデータ集合に基づいて修正量Ｃを学習することから、誤差δを小さくするのに最適な修正量Ｃを高精度に求めることができる。

なお、状態観測部１２は、加工プログラムＭＰを識別するための識別情報（例えば、プログラム名、プログラム識別番号等）を、状態変数ＳＶとしてさらに観測してもよい。機械学習装置１０がコンピュータから構成される場合は、コンピュータのプロセッサは、上述した状態観測部１２及び学習部１４の機能を実現するための演算処理を行う。一方、機械学習装置１０がソフトウェアから構成される場合は、機械学習装置１０は、プロセッサ等のリソースに、ソフトウェアに含まれるコンピュータプログラムを実行させることで、上述の状態観測部１２及び学習部１４の機能を実現させる。

機械学習装置１０では、学習部１４が実行する学習アルゴリズムは特に限定されず、例えば、教師あり学習、教師なし学習、強化学習、又はニューラルネットワーク等、機械学習として公知の学習アルゴリズムを採用できる。図７は、機械学習装置１０の一形態であって、学習アルゴリズムの一例として強化学習を実行する学習部１４を備えた構成を示す。

強化学習は、学習対象が存在する環境の現在状態（つまり入力）を観測するとともに現在状態で所定の行動（つまり出力）を実行し、その行動に対し何らかの報酬を与えるというサイクルを試行錯誤的に反復して、報酬の総計が最大化されるような方策（本実施形態では、修正量Ｃ）を最適解として学習する手法である。

図７に示す機械学習装置１０において、学習部１４は、誤差δに関連する報酬Ｒを求める報酬計算部１６と、報酬Ｒを用いて、修正量Ｃの価値を表す関数ＥＱを更新する関数更新部１８とを備える。学習部１４は、関数更新部１８が関数ＥＱの更新を繰り返すことによって、修正量Ｃを学習する。

以下、学習部１４が実行する強化学習のアルゴリズムの一例を説明する。この例によるアルゴリズムは、Ｑ学習（Ｑ－ｌｅａｒｎｉｎｇ）として知られるものであって、行動主体の状態ｓと、その状態ｓで行動主体が選択し得る行動ａとを独立変数として、状態ｓで行動ａを選択した場合の行動の価値を表す関数ＥＱ（ｓ，ａ）を学習する手法である。

状態ｓで価値関数ＥＱが最も高くなる行動ａを選択することが最適解となる。状態ｓと行動ａとの相関性が未知の状態でＱ学習を開始し、任意の状態ｓで種々の行動ａを選択する試行錯誤を繰り返すことで、価値関数ＥＱを反復して更新し、最適解に近付ける。ここで、状態ｓで行動ａを選択した結果として環境（つまり状態ｓ）が変化したときに、その変化に応じた報酬（つまり行動ａの重み付け）ｒが得られるように構成し、より高い報酬ｒが得られる行動ａを選択するように学習を誘導することで、価値関数ＥＱを比較的短時間で最適解に近付けることができる。

価値関数ＥＱの更新式は、一般に下記の式（１）のように表すことができる。

式（１）において、ｓ_ｔ及びａ_ｔはそれぞれ時刻ｔにおける状態及び行動であり、行動ａ_ｔにより状態はｓ_ｔ＋１に変化する。ｒ_ｔ＋１は、状態がｓ_ｔからｓ_ｔ＋１に変化したことで得られる報酬である。ｍａｘＱの項は、時刻ｔ＋１で最大の価値Ｑになる（と時刻ｔで考えられている）行動ａを行ったときのＱを意味する。α及びγはそれぞれ学習係数及び割引率であり、０＜α≦１、０＜γ≦１で任意設定される。

学習部１４がＱ学習を実行する場合、状態観測部１２が観測した状態変数ＳＶは、更新式の状態ｓに該当し、現在状態のワークＷを加工するときにワークモデルＷＭ１をどの程度修正すべきかという行動（つまり、修正量Ｃ）は、更新式の行動ａに該当する。また、報酬計算部１６が求める報酬Ｒは、更新式の報酬ｒに該当する。関数更新部１８は、現在状態のワークＷを加工するときの修正量Ｃの価値を表す関数ＥＱを、報酬Ｒを用いたＱ学習により繰り返し更新する。

例えば、報酬計算部１６が求める報酬Ｒは、誤差δが所定の閾値δｔｈ１よりも小さい場合に正（プラス）の報酬Ｒとする一方、誤差δが閾値δｔｈ１以上である場合に負（マイナス）の報酬Ｒとする。正負の報酬Ｒの絶対値は、互いに同一であってもよいし異なっていてもよい。

また、報酬計算部１６は、誤差δの大きさに応じて異なる報酬Ｒを求めてもよい。例えば、報酬計算部１６は、誤差δが、０≦δ＜δｔｈ２（＜δｔｈ１）の場合は報酬Ｒ＝＋５を与え、δｔｈ２≦δ＜δｔｈ３（＜δｔｈ１）の場合は報酬Ｒ＝＋２を与え、δｔｈ３≦δ＜δｔｈ１の場合は報酬Ｒ＝＋１を与えてもよい。

一方、報酬計算部１６は、δｔｈ１≦δ＜δｔｈ４の場合は報酬Ｒ＝－１を与え、δｔｈ４＜δ≦δｔｈ５の場合は報酬Ｒ＝－２を与え、δｔｈ５＜δの場合は報酬Ｒ＝－５を与えてもよい。すなわち、この場合、報酬計算部１６は、誤差δが小さくなる程、大きな値の報酬Ｒを求めている。このように条件によって重み付けされた報酬Ｒを求めることで、Ｑ学習を比較的短時間で最適解に収束させることができる。

さらに、報酬計算部１６は、加工状態データＣＤの違いに応じて異なる報酬Ｒを求めてもよい。例えば、報酬計算部１６は、誤差δが閾値δｔｈ１よりも小さく、且つ、加工状態データＣＤの動作パラメータＯＰに含まれる制御ゲインＧが、所定の許容範囲内である場合に、より大きな値の正の報酬Ｒを与えてもよい。また、報酬計算部１６は、誤差δが閾値δｔｈ１よりも小さく、且つ、動作パラメータＯＰに含まれる時定数が、所定の許容範囲内である場合に、より大きな値の正の報酬Ｒを与えてもよい。この場合、工作機械１００の移動機構１３６の動作を高速化するような条件下で誤差δを小さくするように、修正量Ｃの学習を進めることができる。

関数更新部１８は、状態変数ＳＶと報酬Ｒとを、関数ＥＱで表される行動価値（例えば数値）と関連付けて整理した行動価値テーブルを持つことができる。この場合、関数更新部１８が関数ＥＱを更新するという行為は、関数更新部１８が行動価値テーブルを更新するという行為と同義である。

Ｑ学習の開始時には環境の現在状態と修正量Ｃとの相関性は未知であるから、行動価値テーブルにおいては、種々の状態変数ＳＶと報酬Ｒとが、無作為に定めた行動価値の値（関数ＥＱ）と関連付けた形態で用意されている。なお、報酬計算部１６は、誤差δを取得すれば、対応の報酬Ｒを直ちに算出でき、算出した報酬Ｒの値が行動価値テーブルに書き込まれる。

誤差δに応じた報酬Ｒを用いてＱ学習を進めると、より高い報酬Ｒが得られる行動（つまり、修正量Ｃ）を選択する方向へ学習が誘導される。そして、選択した行動を現在状態で実行した結果として変化する環境の状態（つまり、状態変数ＳＶ）に応じて、現在状態で行う行動についての行動価値の値（関数ＥＱ）が書き替えられ、行動価値テーブルが更新される。

この更新を繰り返すことにより、行動価値テーブルに示される行動価値の値（関数ＥＱ）は、適正な行動（修正量Ｃ）ほど大きな値となるように書き換えられる。このようにして、未知であった環境の現在状態（誤差δ）と、それに対する行動（修正量Ｃ）との相関性が、徐々に明らかになる。

以下、図８を参照して、図７に示す機械学習装置１０の学習フローの一例について説明する。図８に示すフローは、工作機械１００が加工プログラムＭＰ１に従って加工したワークＷの形状と目的形状（ワークモデルＷＭ１）との誤差δが測定された場合に、開始される。

ステップＳ１において、関数更新部１８は、その時点での行動価値テーブルを参照しながら、現在状態で行う行動として、修正量Ｃを選択する。例えば、関数更新部１８は、製図装置からワークモデルＷＭ１を取得するとともに、直近に測定された誤差δの測定データを取得する。

そして、関数更新部１８は、誤差δの測定データを基に、ワークモデルＷＭ１上の領域Ｆ（図４）を特定する。そして、関数更新部１８は、領域Ｆに存在するワークモデルＷＭ１のコンポーネント（モデル点、モデル線、表面モデルＳＭ１）を修正する修正量Ｃをランダムに選択する。

ここで、関数更新部１８は、修正量Ｃの大きさ及び方向を制限する所定の条件の下で、修正量Ｃをランダムに選択するように構成されてもよい。例えば、領域Ｆで図５に示す誤差δが生じていた場合、関数更新部１８は、表面モデルＳＭ１を修正する修正量Ｃの方向を、誤差δ（突出誤差）が生じている方向とは反対の方向Ｄ１（すなわち、図５中の表面モデルＳＭ１に関し、表面ＳＷとは反対側）に選択してもよい。一方、領域Ｆで図６に示す誤差δ（凹み誤差）が生じていた場合、関数更新部１８は、修正量Ｃの方向を、誤差δが生じている方向とは反対の方向Ｄ２に選択してもよい。

また、関数更新部１８は、修正量Ｃの大きさ：｜Ｃ｜を、誤差δに基づいて定められた数値範囲内で選択してもよい。例えば、この数値範囲は、領域Ｆにおける誤差δの最大値をδｍａｘとした場合に、０＜｜Ｃ｜≦δｍａｘとして定められ得る。また、関数更新部１８は、修正量ＣだけワークモデルＷＭ１を修正する位置を、予め定めた大きさの誤差δ（例えば、最大値δｍａｘ）が生じているワークモデルＷＭ１のコンポーネント（例えば、モデル点）の位置として、選択してもよい。

ステップＳ２において、関数更新部１８は、状態変数ＳＶを取り込む。具体的には、ステップＳ１で関数更新部１８が修正量Ｃを選択すると、製図装置は、ワークモデルＷＭ１のコンポーネント（モデル点、モデル線、表面モデルＳＭ１）をモデル座標系ＣＷにおいて修正量Ｃだけ修正することによって、ワークモデルＷＭ２を作成する。そして、プログラム生成装置は、ワークモデルＷＭ２に基づいて加工プログラムＭＰ２を生成し、工作機械１００は、該加工プログラムＭＰ２に従ってワークＷを加工する。測定装置は、加工後のワークＷの形状と目的形状（ワークモデルＷＭ１）との誤差δを測定する。

このステップＳ２において、状態観測部１２は、工作機械１００が加工プログラムＭＰ２に従ってワークＷを加工したときの加工状態データＣＤと、加工後の該ワークＷの形状と目的形状との誤差δの測定データとを、状態変数ＳＶとして観測する。関数更新部１８は、状態観測部１２が観測する状態変数ＳＶを取り込む。

ステップＳ３において、関数更新部１８は、直近のステップＳ２で取り込んだ誤差δが閾値δｔｈ１以上であるか否かを判定する。関数更新部１８は、δ≧δｔｈ１である場合にＹＥＳと判定し、ステップＳ５へ進む一方、δ＜δｔｈ１である場合にＮＯと判定し、ステップＳ４へ進む。

ステップＳ４において、報酬計算部１６は、正の報酬Ｒを求める。このとき、報酬計算部１６は、上述したように、誤差δの大きさに応じて異なる報酬Ｒ（具体的には、誤差δが小さくなる程、大きな値の報酬Ｒ）を求めてもよい。報酬計算部１６は、求めた正の報酬Ｒを、関数ＥＱの更新式に適用する。このように誤差δが小さくなる程、大きな値の報酬Ｒを与えることによって、学習部１４による学習が、誤差δが小さくなる行動を選択する方向へ誘導される。

ステップＳ５において、報酬計算部１６は、負の報酬Ｒを求め、関数ＥＱの更新式に適用する。このとき、報酬計算部１６は、上述したように、誤差δが大きくなる程、大きな絶対値の負の報酬Ｒを求めてもよい。なお、報酬計算部１６は、このステップＳ４において、負の報酬Ｒを与える代わりに、報酬Ｒ＝０として、関数ＥＱの更新式に適用してもよい。

ステップＳ６において、関数更新部１８は、現在状態における状態変数ＳＶ及び報酬Ｒを用いて、行動価値テーブル（関数ＥＱ）を更新する。このように、学習部１４は、ステップＳ１～Ｓ６を繰り返すことで行動価値テーブルを反復して更新し、修正量Ｃの学習を進行させる。

上述した強化学習を進めるときに、Ｑ学習の代わりに、例えばニューラルネットワークを用いることができる。図９は、ニューロンのモデルを模式的に示す。図１０は、図９に示すニューロンを組み合わせて構成した三層のニューラルネットワークのモデルを模式的に示す。ニューラルネットワークは、例えば、ニューロンのモデルを模したプロセッサ及びメモリ等によって構成できる。

図９に示すニューロンは、複数の入力ｘ（図では例として入力ｘ１～ｘ３）に対し結果ｙを出力する。個々の入力ｘ（ｘ１、ｘ２、ｘ３）にはそれぞれに重みｗ（ｗ１、ｗ２、ｗ３）が乗算される。入力ｘと結果ｙとの関係は、下記の式（２）で表すことができる。なお、入力ｘ、結果ｙ及び重みｗはいずれもベクトルである。また式（２）において、θはバイアスであり、ｆ_ｋは活性化関数である。

図１０に示す三層のニューラルネットワークは、左側から複数の入力ｘ（図では例として入力ｘ１～入力ｘ３）が入力され、右側から結果ｙ（図では例として結果ｙ１～結果ｙ３）が出力される。図示の例では、入力ｘ１、ｘ２、ｘ３のそれぞれに対応の重み（総称してω１で表す）が乗算されて、個々の入力ｘ１、ｘ２、ｘ３がいずれも３つのニューロンＮ１１、Ｎ１２、Ｎ１３に入力されている。

図１０では、ニューロンＮ１１～Ｎ１３の各々の出力を、総称してＺ１で表す。Ｚ１は、入力ベクトルの特徴量を抽出した特徴ベクトルと見なすことができる。図示の例では、特徴ベクトルＺ１のそれぞれに対応の重み（総称してω２で表す）が乗算されて、個々の特徴ベクトルＺ１がいずれも２つのニューロンＮ２１、Ｎ２２に入力されている。特徴ベクトルＺ１は、重みＷ１と重みＷ２との間の特徴を表す。

図１０は、ニューロンＮ２１～Ｎ２２の各々の出力を、総称してＺ２で表す。Ｚ２は、特徴ベクトルＺ１の特徴量を抽出した特徴ベクトルと見なすことができる。図示の例では、特徴ベクトルＺ２のそれぞれに対応の重み（総称してω３で表す）が乗算されて、個々の特徴ベクトルＺ２がいずれも３つのニューロンＮ３１、Ｎ３２、Ｎ３３に入力されている。特徴ベクトルＺ２は、重みω２と重みω３との間の特徴を表す。最後にニューロンＮ３１～Ｎ３３は、それぞれ結果ｙ１～ｙ３を出力する。

機械学習装置１０においては、状態変数ＳＶを入力ｘとして、学習部１４が上記したニューラルネットワークに従う多層構造の演算を行うことで、修正量Ｃ（結果ｙ）を出力することができる。なおニューラルネットワークの動作モードには、学習モードと価値予測モードとがあり、例えば学習モードで学習データセットを用いて重みωを学習し、学習した重みωを用いて価値予測モードで行動の価値判断を行うことができる。なお価値予測モードでは、検出、分類、推論等を行うこともできる。

上記した機械学習装置１０の構成は、コンピュータのプロセッサが実行する機械学習方法（又はソフトウェア）として記述できる。この機械学習方法は、プロセッサが、工作機械１００の加工状態データＣＤ、及び、ワークモデルＷＭに基づいて工作機械１００が加工したワークＷの形状と目的形状との誤差δの測定データを、ワークＷを加工する環境の現在状態を表す状態変数ＳＶとして観測し、状態変数ＳＶを用いて、修正量Ｃを誤差δと関連付けて学習する。

図１１は、機械学習装置１０の他の形態を示す。この機械学習装置１０は、意思決定部２０をさらに備える。意思決定部２０は、学習部１４による学習結果（行動価値テーブル）に基づいて、修正量Ｃの出力値を出力する。意思決定部２０が出力値Ｃを出力すると、それに応じて、ワークＷを加工する環境１４０の状態（誤差δ）が変化する。

すなわち、意思決定部２０は、出力値Ｃを製図装置に出力し、該製図装置は、ワークモデルＷＭ１のコンポーネント（モデル点、モデル線、表面モデルＳＭ１）を、出力値Ｃに従ってモデル座標系ＣＷにおいて修正することにより、ワークモデルＷＭ２を作成する。そして、プログラム生成装置は、ワークモデルＷＭ２に基づいて加工プログラムＭＰ２を生成し、工作機械１００は、該加工プログラムＭＰ２に従ってワークＷを加工する。測定装置は、加工後のワークＷの形状と目的形状との誤差δを測定し、状態観測部１２は、該誤差δを、次の学習サイクルにおける測定データとして、状態変数ＳＶを観測する。

学習部１４は、変化した状態変数ＳＶを用いて、例えば価値関数ＥＱ（すなわち、行動価値テーブル）を更新することで、修正量Ｃを学習する。意思決定部２０は、学習した修正量Ｃの下、状態変数ＳＶに応じて最適な出力値Ｃを出力する。このサイクルを繰り返すことにより、機械学習装置１０は、修正量Ｃの学習を進め、該修正量Ｃの信頼性を徐々に向上させる。

図１１に示す機械学習装置１０によれば、意思決定部２０の出力によって環境１４０の状態を変化させることができる。なお、機械学習装置１０において、学習部１４の学習結果を環境１４０に反映させるための意思決定部に相当する機能を、外部装置に求めることができる。

次に、図１２を参照して、一実施形態に係る加工システム１５０について説明する。加工システム１５０は、工作機械１００、製図装置１５２、プログラム生成装置１５４、測定装置１５６、センサ１５８、及び制御装置１６０を備える。製図装置１５２は、上述のようにワークモデルＷＭを作成可能な装置（ＣＡＤ等）であって、プロセッサ及びメモリを有するコンピュータ、又はソフトウェアから構成される。

プログラム生成装置１５４は、上述のように、ワークモデルＷＭに基づいて加工プログラムＭＰを生成可能な装置（ＣＡＭ等）であって、プロセッサ及びメモリを有するコンピュータ、又はソフトウェアから構成される。なお、製図装置１５２及びプログラム生成装置１５４は、プロセッサ及びメモリを有する１つのコンピュータであるコンピュータ支援設計装置に統合されてもよい。測定装置１５６は、上述のように、ステレオカメラを有する３次元スキャナ、又は３次元測定機等であって、誤差δを測定し、該誤差δの測定データを制御装置１６０へ送信する。

センサ１５８は、加工状態データＣＤのうち、寸法誤差Ｅ、温度Ｔ１、雰囲気温度Ｔ２、熱量Ｑ、消費電力Ｐ、及び熱変位量ξを測定するためのものであって、上述のずれ測定器、温度センサ、熱量計、電力計（電圧計若しくは電流計）、及び変位測定器を含む。センサ１５８は、加工状態データＣＤとして、寸法誤差Ｅ、温度Ｔ１、雰囲気温度Ｔ２、熱量Ｑ、消費電力Ｐ、及び熱変位量ξを測定し、制御装置１６０へ送信する。

制御装置１６０は、プロセッサ（ＣＰＵ、ＧＰＵ等）１６２、及びメモリ（ＲＯＭ、ＲＡＭ等）１６４を有する。プロセッサ１６２は、バス１６６を介してメモリ１６４と通信可能に接続されており、メモリ１６４と通信しつつ各種演算を実行する。制御装置１６０は、工作機械１００（具体的には、移動機構１３６）、製図装置１５２、プログラム生成装置１５４、測定装置１５６、及びセンサ１５８と通信可能に接続され、これらコンポーネントの動作を制御する。

本実施形態においては、機械学習装置１０は制御装置１６０に実装されており、プロセッサ１６２は、上述の状態観測部１２、学習部１４（報酬計算部１６及び関数更新部１８）、及び意思決定部２０として機能する。また、プロセッサ１６２は、加工状態データＣＤ及び測定データδを取得する。具体的には、プロセッサ１６２は、センサ１５８から、加工状態データＣＤとして寸法誤差Ｅ、温度Ｔ１、雰囲気温度Ｔ２、熱量Ｑ、消費電力Ｐ、及び熱変位量ξを取得する。

また、プロセッサ１６２は、加工状態データＣＤとして動作パラメータＯＰを取得する。例えば、動作パラメータＯＰ（加速度α、時定数τ、制御ゲインＧ、慣性モーメントＭ）は、オペレータによって予め設定され、メモリ１６４に格納される。プロセッサ１６２は、メモリ１６４から動作パラメータＯＰを読み出して取得する。また、プロセッサ１６２は、測定装置１５６から誤差δの測定データを取得する。このように、本実施形態においては、プロセッサ１６２は、加工状態データＣＤ、及び誤差δの測定データを取得する状態データ取得部１６８として機能する。

プロセッサ１６２は、機械学習装置１０として機能して、工作機械１００、製図装置１５２、プログラム生成装置１５４、測定装置１５６、及びセンサ１５８と協働しつつ、修正量Ｃの学習を自動で進めることができる。例えば、プロセッサ１６２は、図８に示す学習フローを実行することによって、最適な修正量Ｃを学習できる。

なお、加工システム１５０は、ワークハンドリングロボット（図示せず）をさらに備えてもよい。このワークハンドリングロボットは、所定の場所に保管されたワーク基材を、工作機械１００のワークテーブル１１４にセットし、該ワーク基材の加工後に、ワークテーブル１１４からワークＷを取り出す。そして、ワークハンドリングロボットは、加工後のワークＷを、測定装置１５６内にセットし、測定装置１５６がワークＷの形状及び誤差δを測定した後に、該ワークＷを測定装置１５６から取り出す。

プロセッサ１６２は、ワークハンドリングロボットを制御して、上述のようなワークＷのローディング及びアンローディングを実行する。この構成によれば、プロセッサ１６２は、オペレータによる手動の作業を要することなく、例えば図８に示す機械学習フローを、全自動で実行できる。

一方、オペレータは、機械学習フローにおける少なくとも１つのプロセスを手動で行ってもよい。例えば、オペレータは、製図装置を操作して、ワークモデルＷＭの作成を手動で行ってもよいし、又は、プログラム生成装置を操作して、加工プログラムＭＰの作成を手動で行ってもよい。

なお、上述の実施形態においては、理解の容易のために、誤差δが生じる領域Ｆが１つである場合について述べた。しかしながら、実際上は、複数の領域Ｆｉ（ｉ＝１，２，３，・・・）で誤差δが生じる場合がある。この場合、機械学習装置１０は、各々の領域Ｆｉについて上述の機械学習方法を実行する。例えば、図７に示す機械学習装置１０の場合、機械学習装置１０は、図８に示すフローを各々の領域Ｆｉについて順次実行する。これにより、各領域Ｆｉで最適な修正量Ｃを学習することができる。

なお、上述の実施形態では、理解の容易のために、図２に示すような簡単な形状のワークＷを例として説明したが、ワークの形状は限定されない。例えば、機械学習装置１０は、図１３に示すようなワークＷ２に関しても、上述の機械学習方法を実行して、最適な修正量Ｃを学習できる。図１３に示すワークＷ２は、コンプレッサ等の流体装置に用いられる羽根車であって、基部ＷＡと、該基部ＷＡから外方へ曲線状に延出する翼部ＷＢとを有する。ワークＷ２は、工作機械１００によって加工される。

なお、工作機械１００は、上述の構成に限定されず、如何なるタイプのものであってもよい。例えば、工作機械１００は、工具１１８で切削加工するものに限らず、例えば、レーザ加工ヘッドを備え、該レーザ加工ヘッドから出射されるレーザ光によってワークＷを加工するものであってもよい。

また、上述の移動機構１３６の代わりに、垂直多関節型、水平多関節型又はパラレルリンク型のロボットを、工具１１８（又はレーザ加工ヘッド）とワークＷとを相対的に移動させる移動機構として適用してもよい。この場合、ロボットは、工具１１８を回転駆動する駆動部を有し、工作機械１００は、ロボットによって工具１１８をワークＷに対して移動させつつ、該工具１１８でワークＷを加工する。

また、図１２に示す実施形態において、製図装置１５２及びプログラム生成装置１５４の少なくとも一方がソフトウェアとして制御装置１６０に統合されてもよい。以上、実施形態を通じて本開示を説明したが、上述の実施形態は、特許請求の範囲に係る発明を限定するものではない。なお、状態観測部１２は、修正量Ｃを状態変数ＳＶとして観測してもよい。この場合において、修正量Ｃを取得する修正量取得部が設けられてもよい。

１０機械学習装置
１２状態観測部
１４学習部
１６報酬計算部
１８関数更新部
２０意思決定部
１００工作機械
１１８工具
１３６移動機構
１５０加工システム
１６０制御装置

Claims

ワークの目的形状をＣＡＤモデルとしてモデル化したワークモデルを、該ワークモデルに基づいて加工された前記ワークの形状を前記目的形状に一致させるように修正する修正量を学習する機械学習装置であって、
前記ワークを加工する工作機械の加工状態データ、及び、前記ワークモデルに基づいて前記工作機械が加工した前記ワークの形状と前記目的形状との誤差の測定データ、を、前記ワークを加工する環境の現在状態を表す状態変数として観測する状態観測部と、
前記状態変数を用いて、前記修正量を前記誤差と関連付けて学習する学習部と、を備える、機械学習装置。
ワークをモデル化したワークモデルを、該ワークモデルに基づいて加工された前記ワークの形状を目的形状に一致させるように修正する修正量を学習する機械学習装置であって、
前記ワークを加工する工作機械の加工状態データ、及び、前記ワークモデルに基づいて前記工作機械が加工した前記ワークの形状と前記目的形状との誤差の測定データ、を、前記ワークを加工する環境の現在状態を表す状態変数として観測する状態観測部と、
前記状態変数を用いて、前記修正量を前記誤差と関連付けて学習する学習部と、を備え、
前記加工状態データは、前記工作機械の寸法誤差、該工作機械の温度、該工作機械の周囲の雰囲気温度、該工作機械の熱量、該工作機械の消費電力、該工作機械の熱変位量、及び該工作機械の動作パラメータ、の少なくとも１つを含む、機械学習装置。
前記工作機械は、
前記ワークを加工する工具と、
前記工具と前記ワークとを相対的に移動させる移動機構と、を有し、
前記動作パラメータは、前記移動機構の加速度、該移動機構の加速又は減速に要する時間を決定する時定数、該移動機構の制御の応答速度を決定する制御ゲイン、及び、該移動機構の慣性モーメント、の少なくとも１つを含む、請求項２に記載の機械学習装置。
ワークをモデル化したワークモデルを、該ワークモデルに基づいて加工された前記ワークの形状を目的形状に一致させるように修正する修正量を学習する機械学習装置であって、
前記ワークを加工する工作機械の加工状態データ、及び、前記ワークモデルに基づいて前記工作機械が加工した前記ワークの形状と前記目的形状との誤差の測定データ、を、前記ワークを加工する環境の現在状態を表す状態変数として観測する状態観測部と、
前記状態変数を用いて、前記修正量を前記誤差と関連付けて学習する学習部と、を備え、
前記学習部は、
前記誤差に関連する報酬を求める報酬計算部と、
前記報酬を用いて、前記修正量の価値を表す関数を更新する関数更新部と、を有する、機械学習装置。
前記報酬計算部は、前記誤差の大きさに応じて異なる前記報酬を求める、請求項４に記載の機械学習装置。
ワークをモデル化したワークモデルを、該ワークモデルに基づいて加工された前記ワークの形状を目的形状に一致させるように修正する修正量を学習する機械学習装置であって、
前記ワークを加工する工作機械の加工状態データ、及び、前記ワークモデルに基づいて前記工作機械が加工した前記ワークの形状と前記目的形状との誤差の測定データ、を、前記ワークを加工する環境の現在状態を表す状態変数として観測する状態観測部と、
前記状態変数を用いて、前記修正量を前記誤差と関連付けて学習する学習部と、
前記学習部による学習結果に基づいて、前記修正量の出力値を出力する意思決定部と、を備え、
前記状態観測部は、前記出力値に従って修正された前記ワークモデルに基づいて前記工作機械が加工した前記ワークの形状と前記目的形状との前記誤差を、次の学習サイクルにおける前記測定データとして、前記状態変数を観測する、機械学習装置。
工作機械を制御する制御装置であって、
請求項１～６のいずれか１項に記載の機械学習装置と、
前記加工状態データ及び前記測定データを取得する状態データ取得部と、を備える、制御装置。
ワークを加工する工作機械と、
前記工作機械が加工した前記ワークの形状と、予め定められた前記ワークの目的形状との誤差を測定する測定装置と、
請求項７に記載の制御装置と、を備える、加工システム。
ワークの目的形状をＣＡＤモデルとしてモデル化したワークモデルを、該ワークモデルに基づいて加工された前記ワークの形状を前記目的形状に一致させるように修正する修正量を学習する機械学習方法であって、
前記ワークを加工する工作機械の加工状態データ、及び、前記ワークモデルに基づいて前記工作機械が加工した前記ワークの形状と前記目的形状との誤差の測定データ、を、前記ワークを加工する環境の現在状態を表す状態変数として観測し、
前記状態変数を用いて、前記修正量を前記誤差と関連付けて学習する、機械学習方法。