JP2019160017A

JP2019160017A - 学習装置、学習方法、及びそのプログラム

Info

Publication number: JP2019160017A
Application number: JP2018047865A
Authority: JP
Inventors: 高史藤井; Takashi Fujii; 勇樹上山; Yuki Kamiyama; 泰明阿部; Yasuaki Abe; 信幸阪谷; Nobuyuki Sakatani; 和彦今竹; Kazuhiko Imatake
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2018-03-15
Filing date: 2018-03-15
Publication date: 2019-09-19
Anticipated expiration: 2038-03-15
Also published as: EP3767400A4; US20210041838A1; CN111684365B; WO2019176772A1; EP3767400A1; US11480931B2; CN111684365A; JP6536978B1; EP3767400B1

Abstract

【課題】処理対象物に対しての加工・組立等の処理において、制御対象に与える指令値を生成するための補正量を学習する技術を提供する。【解決手段】補正量に基づいて目標値を補正した指令値を出力するコントローラと、コントローラから出力される指令値が入力され当該指令値の応答として制御量が出力される制御対象とを備える制御系において、コントローラに対して所定の補正量を出力するように学習された学習済みモデルを含む調整器に対して、学習済みモデルを提供する学習装置であって、制御量の品質を評価する評価部と生成した補正量候補と処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデルを生成する学習部と、生成された補正量に基づいて目標値を補正した指令値を制御対象に与えたときの制御量に基づいて評価された品質が予め定められた許容範囲内であるときに、前記学習済みモデルを前記調整器に提供する設定部と、を備える。【選択図】図２

Description

本発明は、学習装置、学習方法、及びそのプログラムに関する。

プレス機械等の制御装置を用いて材料の加工・組立等を行った場合、通常、一度加工等を行った材料は元に戻せない。したがって、同一の材料に対して繰り返し加工等を行いながら、適切に制御量を調整することはできない。そのため、材料の性質と制御入力の関係を定量化し、新しく加工等を行うときに適切な制御入力を与え、適切な制御量を得ることが重要となる。

例えば特許文献１には、プレス加工品を製造するにあたり、板厚のばらつきの影響を低減可能なプレスシステムが開示されている。特許文献１のプレスシステムは、プレス機械と、このプレス機械にワークを供給する供給装置とから構成されており、ワークの板厚情報をプレス機械によるプレス前に入手する板厚入手手段と、当該板厚入手手段からの板厚情報によりプレス機械のダイハイト(Ｈ)を設定するダイハイト設定手段とを備えている。

特開２００５−２１１９２８号公報

ところで、特許文献１に記載されるプレスシステムでは、想定されるすべての板厚ごとに、実際のプレス機械で複数回試行錯誤することによって、設定すべき最適なダイハイトを調整する必要がある。このようなプレスシステムのような制御系において、処理対象物のパラメータに応じて、適切なダイハイト等の制御量を出力するよう学習した学習済みモデルを用いて、ダイハイトの調整量（補正量）を設定することが考えられる。この場合、教師データとして、処理対象物のパラメータと、適切な補正量とを含むデータを用いることが考えられるところ、実際にプレス機械等の処理対象物に対して加工・組立等の処理を行う制御系において、ダイハイト等の制御量の適性値は、板厚に限らず、処理対象物の硬度や温度、材質等の様々なパラメータの影響を受ける。したがって、教師データとする補正量が適切かどうかを確認するには、さまざまな処理対象物に対して試行錯誤する必要があり膨大な時間を要してしまう。

そこで、本発明は、処理対象物に対して加工・組立等の処理を行う制御系の予測制御において、制御対象に与える指令値を生成するための適切な補正量を効率的に学習する技術を提供することを目的とする。

本発明の一側面に係る学習装置は、補正量に基づいて目標値を補正した指令値を出力するコントローラと、処理対象物に対して所定の処理をするよう制御される制御対象であって、コントローラから出力される指令値が入力され、当該指令値の応答として制御量が出力される制御対象と、を備える制御系において、処理対象物の特定のパラメータに基づいて、前記コントローラに対して所定の前記補正量を出力するように学習された学習済みモデルを含む調整器に対して、前記学習済みモデルを提供する学習装置であって、目標値、指令値及び制御量を含む動作データを取得して、制御量の品質を評価する評価部と、動作データに基づいて、補正量候補を生成し、生成した補正量候補と、処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデルを生成する学習部と、生成された学習済みモデルによって出力された補正量に基づいて目標値を補正した指令値を制御対象に与えたときの制御量に基づいて、評価部において評価された品質が予め定められた許容範囲内であるときに、前記学習済みモデルを前記調整器に提供する設定部と、を備える。この態様によると、学習装置は、制御対象を実際に動作させることなく補正量候補を生成したときに、当該補正量候補を用いて生成された学習済みモデルを、適切な補正量を出力するか否かを確認してから採否を判定することができる。これにより、実際に制御対象を動作させながら、より効率的に学習を行いつつ、不適切な学習済みモデルを排除することができる。なお、「パラメータ」は、処理対象物の特徴量や物理量、その他の任意の数値情報を含む。特徴量は、例えば処理対象物の材質等であり、物理量は例えば、処理対象物の硬度や温度等である。

また、設定部は、制御対象に与えられた処理対象物の特定のパラメータが、生成された学習済みモデルの評価が未実施のパラメータに等しいとき、生成された学習済みモデルによって出力された補正量をコントローラに対して出力し、評価部において品質を評価させる構成でもよい。また、学習部は、生成された学習済みモデルが出力した補正量に基づいて評価させた品質が、許容範囲に満たないときに改めて学習を行い、学習済みモデルを生成し直すように構成されてもよい。これにより、不適切な学習済みモデルを排除することができる。

また、上記学習部は、データ駆動制御によって前記補正量候補を生成するように構成されてもよい。データ駆動制御は、ＶＲＦＴ、ＦＲＩＴ又はＥＲＩＴのいずれかでもよい。この態様によると、学習部は、ＶＲＦＴやＦＲＩＴ、ＥＲＩＴ等のデータ駆動制御の手法を用いることにより、制御対象の動特性モデルを求めることなく補正量候補を生成し、教師データを生成することが可能となる。これによって、学習装置は、制御対象の実際の動作を繰り返し行うことなく補正量候補を生成することが可能になる。この結果、学習装置は、処理対象物を準備したり破損させたりすることなく、より効率的に学習を行うことができる。

本発明の一側面に係る学習方法は、補正量に基づいて目標値を補正した指令値を出力するコントローラと、処理対象物に対して所定の処理をするよう制御される制御対象であって、コントローラから出力される指令値が入力され、当該指令値の応答として制御量が出力される制御対象と、を備える制御系において、処理対象物の特定のパラメータに基づいて、コントローラに対して所定の補正量を出力するように学習された学習済みモデルを含む調整器に対して、学習済みモデルを提供する学習装置で実行される方法であって、学習装置が、目標値、指令値及び制御量を含む動作データを取得して、制御量の品質を評価するステップと、動作データに基づいて、補正量候補を生成し、生成した補正量候補と、処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデルを生成するステップと、生成された学習済みモデルによって出力された補正量に基づいて目標値を補正した指令値を制御対象に与えたときの制御量に基づいて、評価するステップにおいて評価された品質が予め定められた許容範囲内であるときに、前記学習済みモデルを前記調整器に提供するステップと、を実行する。

本発明の一側面に係るプログラムは、補正量に基づいて目標値を補正した指令値を出力するコントローラと、処理対象物に対して所定の処理をするよう制御される制御対象であって、コントローラから出力される指令値が入力され、当該指令値の応答として制御量が出力される制御対象と、を備える制御系において、処理対象物の特定のパラメータに基づいて、コントローラに対して所定の補正量を出力するように学習された学習済みモデルを含む調整器に対して、学習済みモデルを提供する学習装置を機能させるプログラムであって、学習装置を、目標値、指令値及び制御量を含む動作データを取得して、制御量の品質を評価する手段、動作データに基づいて、補正量候補を生成し、生成した補正量候補と、処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデルを生成する手段、及び前記生成された学習済みモデルによって出力された補正量に基づいて目標値を補正した指令値を制御対象に与えたときの制御量に基づいて、評価する手段において評価された品質が予め定められた許容範囲内であるときに、学習済みモデルを前記調整器に提供する手段して機能させる。

本発明によれば、処理対象物に対して加工・組立等の処理を行う制御系の予測制御において、制御対象に与える指令値を生成するための適切な補正量を効率的に学習する技術を提供することができる。

本発明の一実施形態に係る制御システムのシステム構成例を示す模式図である。本発明の一実施形態に係る学習装置の機能構成例を示すブロック図である。本発明の一実施形態に係る管理テーブルの一例を示す図である。本発明の一実施形態に係る管理図の一例を示す図である。本発明の一実施形態に係る学習装置の処理の一例を説明するためのフローチャートである。本発明の一実施形態に係る学習装置のハードウェア構成を示す模式図である。本発明の別の実施形態に係る制御システムのシステム構成例を示す模式図である。

［実施形態］
以下、本発明の一側面に係る実施の形態（以下「本実施形態」とも表記する）を、図面に基づいて説明する。ただし、以下で説明する実施形態は、あらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。なお、本実施形態において登場するデータを自然言語により説明しているが、より具体的には、コンピュータが認識可能な疑似言語、コマンド、パラメータ、マシン語等で指定される。

§１適用例
まず、図１を参照しながら、本発明が適用される場面の一例について説明する。図１は本発明に係る制御システム１の構成の一例を示す図である。制御システム１は、コントローラ１０と、サーボ機構２０と、調整器３０と、学習装置４０とを備えている。

コントローラ１０は、調整器３０から出力された補正量ρに基づいて目標値ｒ（ｔ）を補正した指令値ｕ（ｔ）を生成して、サーボ機構２０に出力する。目標値ｒ（ｔ）は、コントローラ１０によって生成（記憶された目標値を用いることを含む）されてもよいし、外部からコントローラ１０に与えられてもよい。コントローラ１０の伝達関数Ｃ（ρ）とすると、コントローラ１０では、以下の式（１）に示す演算を行うことで、指令値ｕを生成する。
＜コントローラの演算式＞
ｕ（ｔ）＝Ｃ（ρ）×ｒ（ｔ）・・・式（１）

サーボ機構２０は、コントローラ１０によって、処理対象物（以下「ワーク」ともいう。）に対して所定の処理をするように制御される。サーボ機構２０には、コントローラ１０から指令値ｕ（ｔ）が与えられ、当該入力値の応答として制御量ｙ（ｔ）が出力される。サーボ機構２０の伝達関数をＰとすると、制御量ｙ（ｔ）は、以下の式（２）で表される。
＜サーボ機構の演算式＞
ｙ（ｔ）＝Ｐ×ｕ（ｔ）・・・式（２）

なお、本実施形態では、サーボ機構２０は、ワークに対して所定量の圧力でプレスするプレス機械の例を示すが、これに限られない。なお、サーボ機構２０は、本発明の「制御対象」の一例である。

調整器３０は、コントローラ１０に与える補正量ρを出力する。本実施形態において、調整器３０は、ワークが有するパラメータのうち、特定のパラメータに基づいて適切な補正量が出力されるように学習された学習済みモデルを有している。例えば、ワークの板厚の大きさを特定のパラメータとしてもよい。また、この学習済みモデルは、学習装置４０から提供されるものであってよい。また、調整器３０は、センサ（不図示）からワークのパラメータを取得してもよい。なお、センサは例えばサーボ機構２０が有してもよい。

学習装置４０は、学習済みモデルを生成するにあたり、まず、あるパラメータαを有する処理対象物に対して、制御系を一度実際に動作させて、そのときの目標値ｒ（ｔ）、指令値ｕ（ｔ）、及び制御量ｙ（ｔ）の関係を取得する。次に、学習装置４０は、これら３つの値からパラメータαに対応する補正量候補ρ*を算出する。算出した補正量候補ρ*とパラメータαとに基づいて、学習装置４０は教師データを生成する。この処理を複数のパラメータについて実行することで、学習装置４０は、各パラメータとそれに対応する補正量候補とを有する教師データを複数生成することができる。そして、学習装置４０は、生成した一又は複数の教師データを用いて学習を行うことで、学習済みモデルを生成する。なお、生成された教師データを実際に学習に用いるか否かは、所定の採用基準に照らし合わせて決定されてもよい。

補正量候補ρ*を生成するにあたり、学習装置４０は、ＶＲＦＴ（Virtual Reference Feedback Tuning）やＦＲＩＴ（Fictitious Reference Iterative Tuning）、ＥＲＩＴ(Estimated Response Iterative Turning）等の、データ駆動制御の手法を用いることができる。データ駆動制御は、制御対象（本実施形態の場合、サーボ機構２０である。）の動特性モデルを求めることなく、得られたデータを用いて制御パラメータを設定することができる。データ駆動制御の手法を用いることにより、反復実験を行うことなく、すなわちサーボ機構２０の実際の動作を繰り返し行うことなく、一組の動作データから補正量候補ρ*を生成し、これを教師データとして利用する。これによって、適切な教師データを生成するまでの時間を短縮し、適切な補正量を出力するための学習済みモデルの効率的な生成を可能としている。

ここで、データ駆動制御の手法を用いて生成された補正量候補ρ*を教師データとして学習した場合、学習により得られる学習済みモデルは、必ずしも適切な補正量を出力するとは限らない。そこで、学習装置４０は、学習済みモデルを調整器３０へ設定する前に、学習済みモデルを評価し、所定の品質の制御量を得られることを確認できたときに、学習装置４０が生成した学習済みモデルを調整器３０へ設定してもよい。
例えば、ワークＸのパラメータαと補正量候補ρ*とを教師データとして学習を行い、新たに学習済みモデルＬＭ*を生成したとする。このとき学習装置４０は、ワークＸと同様のパラメータαを有する別のワークがサーボ機構２０に与えられた際に、先に生成した学習済みモデルＬＭ*を用いて補正量ραを生成し、コントローラ１０に提供する。コントローラ１０は、補正量ραに基づいて指令値ｕ（ｘ）を生成し、サーボ機構２０が指令値ｕ（ｘ）への応答として制御量ｙ（ｘ）を出力する。ここで、品質評価部４２が制御量ｙ（ｘ）の品質を評価した結果、制御量ｙ（ｘ）が所定の許容範囲内であれば、学習装置４０は調整器３０に新たに生成された学習済みモデルＬＭ*を設定するものとしてよい。他方、所定の許容範囲に満たなかった場合、すでに調整器３０に学習済みモデルが設定されている場合には、設定部４４は学習済みモデルの更新を行わなくてもよい。これにより、学習装置４０は、制御対象を実際に動作させることなく補正量候補を生成したときに、当該補正量候補を用いて生成された学習済みモデルを、適切な補正量を出力するか否かを確認してから採否を判定することができるため、より効率的に学習を行いつつ、不適切な学習済みモデルを排除することができる。この結果、学習装置は、処理対象物を準備したり破損させたりすることなく、より効率的に学習を行うことができる。

§２構成例
図２乃至図４を参照して、学習装置４０の機能構成の一例を説明する。図２は、学習装置４０の機能構成の一例を示す機能ブロック図である。図２に示すように、学習装置４０は、記憶部４１と、品質評価部４２と、学習部４３と、設定部４４とを有している。

記憶部４１には、参照モデルＴｄと、管理テーブルとが記憶されている。
参照モデルＴｄとは、目標値ｒ（ｔ）に対する制御量ｙ（ｔ）の理想的な応答の伝達関数を示したものである。参照モデルＴｄを用いると、目標値ｒ（ｔ）に対する理想的な制御量（以下「目標応答」ともいう。）ｙｄ（ｔ）は次式（３）で表される。
＜参照モデルＴｄの式＞
ｙｄ（ｔ）＝Ｔｄ×ｒ（ｔ）・・・（３）

なお、参照モデルＴｄは伝達関数に限定されず、サーボ機構２０をワークのない状態で動作させた際の、目標値ｒ（ｔ）、制御量ｙ（ｔ）に基づいて、機械学習により生成されるモデルを用いてもよい。

管理テーブルには、学習部４３が学習に用いる教師データが管理されている。図３は、管理テーブルの一例を示す図である。教師データは、ワークごとに、入力データとして当該ワークのパラメータ（図３の例では硬さ）と、出力データとして当該ワークに対して指令値を出力する際の最適な補正量（以下「最適補正量」ともいう。）と、が対応付けられたデータである。管理テーブルには、各ワークに対応付けられた最適補正量に基づいて生成された指令値に応答してサーボ機構２０が出力した制御量の品質の評価の結果が対応付けられている。なお、最適補正量は、補正量の一例にすぎず、最適な補正量を用いることは必須ではない。

なお、管理テーブルに新たな教師データのレコードが追加された後、当該レコードに対応するワークについて、サーボ機構２０が処理をまだ行っていない場合には、管理テーブルの評価結果の欄には例えば未実施が登録されてもよい。

このように、管理テーブルには、学習部４３が学習に用いた教師データと、当該教師データを用いて新たに生成された（又は更新された）学習済みモデルの評価の結果が管理されている。

さらに、記憶部４１には、学習部４３が生成した学習済みモデルＬＭが記憶されている。記憶部４１は、学習部４３が生成した学習済みモデルの複数の世代を記憶していることが好ましい。

品質評価部４２は、コントローラ１０及びサーボ機構２０から動作データを取得して、制御量の品質を評価する。一例として、品質評価部４２は目標値ｒ（ｔ）に対して与えられた指令値ｕ（ｔ）への応答としてサーボ機構２０から制御量ｙ（ｔ）が出力された場合について説明する。このとき、品質評価部４２は、目標値ｒ（ｔ）を参照モデルＴｄに入力し、目標値ｒ（ｔ）に対する目標応答ｙｄ（ｔ）を取得する。

次に、品質評価部４２は、目標応答ｙｄ（ｔ）、制御量ｙ（ｔ）について品質換算を行い品質の代替指標を算出する。例えば品質評価部４２は、目標応答ｙｄ（ｔ）、制御量ｙ（ｔ）に対して品質換算を行い下死点位置や整定時間を算出する。より詳細には、品質評価部４２は、目標応答ｙｄ（ｔ）、制御量ｙ（ｔ）の最大値から下死点位置を算出する。また、品質評価部４２は、目標応答ｙｄ（ｔ）が目標位置に入った時刻、及び制御量ｙ（ｔ）が目標位置に入った時刻のそれぞれから指令値が目標位置に到達した時刻を減算することで、それぞれの整定時間を算出する。なお、下死点位置は、サーボ機構２０のストローク長が最大となった位置である。また、整定時間は、サーボ機構２０のストローク長が整定幅に入ったときから、目標位置に到達するときまでの経過時間であり、整定幅は、目標位置から所定の範囲の幅（例えば目標位置±１０μｍである）をいう。

品質評価部４２は、品質換算して算出した代替指標である下死点位置と整定時間に基づいて、制御量ｙ（ｔ）の品質の評価を行う。例えば、品質評価部４２は、下死点位置が目標位置と一致しているか否かや、下死点位置が整定幅に含まれるか否かに基づいて制御量ｙ（ｔ）が所定の許容範囲内か否かを判定することで品質の評価をすることができる。

また、例えば、品質評価部４２は、Ｘ^bar−Ｒ管理図を用いて制御量ｙ（ｔ）の品質の評価を行ってもよい。Ｘ^bar−Ｒ管理図は、品質評価対象の平均値の変化とばらつきの変化を管理するための管理図である。図４は、品質評価部４２が品質の評価に用いるＸ^bar−Ｒ管理図のうちｘ管理図の一例を示している。図４において、縦軸はストローク長を示している。グラフＬ１、Ｌ２は、複数のロット分のワークに対してサーボ機構２０が処理を行った際のそれぞれの制御量ｙ（ｔ）について品質換算して算出した下死点位置の、各ロットにおける平均値をプロットしたものの一例である。図４において、実線は規格値Ｌ３の上限及び下限を示し、破線Ｌ４は管理値の上限及び下限を示している。規格値は例えば、ワークについて加工を依頼した顧客の要求値である。管理値は、規格値を超えないように管理するための値である。グラフの中心には、品質の目標値が示されている。グラフＬ２は、品質が管理値の範囲内にある場合の一例を示すものであり、グラフＬ１は、品質が規格値内に納まらなかった場合の一例を示すものである。なお、図４の例では、ロットごとにグラフのプロットを行った例を示しているが、各プロットの値はロット単位で算出された値に限定されず、１又は複数のワークに対する処理に基づいて品質換算された値を用いてもよい。品質評価部４２は、図４に示すＸ^bar−Ｒ管理図において、制御量ｙ（ｔ）の下死点位置が、管理値の範囲内か否かや、規格値の範囲内か否かに基づいて、制御量ｙ（ｔ）が所定の許容範囲内か否かを判定することで品質の評価をしてもよい。例えば、図４に示すＸ^bar−Ｒ管理図等を用いて品質評価を行った結果、制御量ｙ（ｔ）が所定の許容範囲内か否かに基づいて、上述した図３の管理テーブルにおける品質の評価の結果が登録されてもよい。より詳細には、例えば図３の１行目のレコードに登録されている最適補正量候補（図３の例では０．５ｍｍ）に基づいて生成された指令値に応答した際に、サーボ機構２０から制御量ｙ（β）が出力されたとする。このとき、図４に示すＸ^bar−Ｒ管理図を用いて、制御量ｙ（β）の下死点位置が管理値の範囲内か否かや、規格値の範囲内か否かに基づいて、制御量ｙ（β）の品質評価が行われた結果が、図３の管理テーブルの１行目のレコードにおける品質の評価の結果として登録される。

学習部４３は、動作データを用いて算出した補正量候補ρ*に基づいて教師データを生成し、学習済みモデルを生成する。学習部４３は、補正量候補ρ*を算出するにあたり、ＶＲＦＴやＦＲＩＴ、ＥＲＩＴ等の、データ駆動制御を用いることが好ましい。データ駆動制御は、制御対象（本実施形態の場合、サーボ機構２０である。）の動特性モデルを求めることなくデータを用いて制御パラメータを設定する手法である。ＶＲＦＴ、ＦＲＩＴ及びＥＲＩＴ等のデータ駆動制御は、反復実験を行うことなく、一組の動作データから補正量を特定可能な手法である。一組の動作データは、目標値ｒと、当該目標値に基づいて与えられた指令値と、指令値の応答として出力された制御量である。

学習部４３の補正量候補生成処理について、より詳細に説明する。例えば、学習部４３は、参照モデルＴｄを参照し、サーボ機構２０が任意のワーク（以下「ワークＸ」という。）に対して、任意の指令値ｕｉｎｉに基づいて動作を行った場合の動作データ（以下、ワークＸに対して任意の指令値ｕｉｎｉに基づいて動作を行った場合の動作データを特に「動作データＹ」という。）に基づいて、補正量候補ρ*を生成する例について説明する。この指令値ｕｉｎｉは、ある補正量ρｉｎｉに基づいて目標値ｒを補正して生成されるものとする。ここで、動作データＹに含まれる目標値を目標値ｒとし、指令値を指令値ｕｉｎｉとし、制御量を制御量ｙｉｎｉとすると、動作データＹは、｛ｒ，ｕｉｎｉ，ｙｉｎｉ｝で表される。

学習部４３は、ＶＲＦＴを用いて補正量候補ρ*を算出する場合、参照モデルＴｄの逆モデルＴｄ^-1を用いて、以下の式（４）により、まず、仮想参照信号を算出する。

さらに学習部４３は、以下の式（５）で表される評価関数Ｊｖ（ρ）を最小化する補正量候補ρ*を算出する。なお、式（５）において、Ｃ（ρ）は、上述のコントローラ１０の伝達関数を示している。

他方、学習部４３は、ＦＲＩＴを用いて補正量候補ρ*を算出する場合、以下の式（６）により、まず、疑似参照信号を算出する。なお、式（６）において、Ｃ（ρ）^-1はコントローラ１０の逆伝達関数を示している。

さらに学習部４３は、以下の式（７）で表される評価関数Ｊｆ（ρ）を最小化する補正量候補ρ*を算出する。

学習部４３は、算出した補正量候補ρ*を最適補正量ρ´として、ワークＸのパラメータとを対応付けて教師データとして管理テーブルに追加する。なお、学習部４３は、補正量候補ρ*を最適補正量ρ´に採用するか否かを判定する採否判定を行う構成でもよい。この場合、学習部４３は、算出した補正量候補ρ*が所定の採用基準を満たすか否かを判定し、満たした場合に最適補正量ρ´として採用し、管理テーブルに追加する。採用基準は、例えば、算出した補正量候補ρ*が、管理テーブルに登録されている教師データに含まれる最適補正量から所定の値以上離れた値（例えば外れ値）でないか否かである。なお、採用基準は、補正量候補ρ*が、上記の教師データに含まれる最適候補量の平均値から一定値以上離れた値ではないか、最適候補量の最大値又は最小値から一定値以上離れた値ではないか、でもよい。また、例えば、採用基準は、算出した補正量候補ρ*が、管理テーブルに登録されている教師データに含まれる最適補正量の範囲に含まれるか否かでもよい。

学習部４３は、管理テーブルに登録された教師データに基づいて学習を実行し、学習済みモデルＬＭ*を生成する。なお、学習済みモデルを生成する際に行う学習には、例えば既存のニューラルネットワークや回帰分析の技術を用いることができる。学習部４３は、記憶部４１に今回生成した学習済みモデルＬＭ*を追加して記憶させる。なお、学習部４３は、記憶部４１に記憶されている学習済みモデルＬＭを今回生成した学習済みモデルＬＭ*で上書きする構成でもよい。

なお、学習部４３は、補正量候補ρ*を生成するにあたり、学習要否判定を行う構成でもよい。この場合、学習部４３は、所定の学習要否判定基準を満たすか否かを判定し、満たしたときに、学習を行うために補正量候補ρ*を生成する。所定の学習要否判定基準は、例えば、動作データＹに対する品質評価部４２の結果が許容範囲内であるか否かである。また、所定の学習要否判定基準は、ワークＸのパラメータが過去に学習した、すなわち、現在、調整器３０に設定されている学習済みモデルにおいて学習したパラメータの範囲外であるか否かでもよい。他にも、所定の学習要否判定基準は、ワークＸに対して動作を行った際にサーボ機構２０の外部環境が、それ以前の外部環境から変化したか否かでもよい。この場合、学習部４３は、ユーザの任意の入力に基づいて、外部環境の変化を検出してもよいし、サーボ機構２０の外部環境を含む画像データをセンサから取得して、取得した画像データに基づいて、外部環境の変化を検出してもよい。

設定部４４は、学習部４３が生成した学習済みモデルＬＭ*を調整器３０へ設定する。このとき設定部４４は、学習済みモデルＬＭ*を設定する前に、学習済みモデルＬＭ*を評価し、評価結果に基づいて、調整器３０に設定するか否かを判定してもよい。

例えば、設定部４４は、学習済みモデルＬＭ*を用いて制御を行い、制御した結果に対する品質の評価に基づいて、学習済みモデルＬＭ＊を調整器３０に設定するか否かを判定することができる。具体的には、例えば、ワークＸのパラメータαと補正量候補ρ*とを教師データとして、学習部４３が追加学習を行い、新たに学習済みモデルＬＭ*を生成したとする。このとき設定部４４は、ワークＸと同様のパラメータαを有するワークがサーボ機構２０に与えられた際に、学習済みモデルＬＭ*を用いて、補正量ραを生成する。コントローラ１０では、学習済みモデルＬＭ*が生成した補正量ραに基づいて指令値ｕ（ｘ）を生成し、サーボ機構２０に出力する。サーボ機構２０が指令値ｕ（ｘ）への応答として出力した制御量ｙ（ｘ）について、品質評価部４２が品質の評価を行う。品質の評価の結果、制御量ｙ（ｘ）が所定の許容範囲内であれば、設定部４４は調整器３０に新たに生成された学習済みモデルＬＭ*を設定することができる。他方、所定の許容範囲に満たなかった場合、設定部４４は学習済みモデルの更新を行なわず、すでに調整器３０に設定されているモデルをそのまま使用してよい。

なお、記憶部４１に評価が未実施の学習済みモデルＬＭ*が複数登録されている場合には、設定部４４は、例えば、新しく生成された順に学習済みモデルＬＭ*の評価を行い、評価の結果が最初に許容範囲内に納まった学習済みモデルＬＭ*を選択して調整器３０に設定してもよい。また例えば、設定部４４は、すべての学習済みモデルＬＭ*の評価を実施して、評価結果がもっともよかった学習済みモデルＬＭ*を選択して調整器３０に設定してもよい。

なお、設定部４４は、評価が所定の許容範囲に満たなかった学習済みモデルＬＭ*を記憶部４１から削除してもよい。

このように設定部４４が、新たに生成（又は更新）された学習済みモデルＬＭ*について、調整器３０に実際に設定する前に、評価を実施することで、品質が不十分な学習済みモデルは調整器３０に設定されないため、制御システム１の処理精度が低下してしまうことを防ぐことができる。

§３動作フロー
図５を参照して、本実施形態に係る制御システム１の処理フローの一例について説明する。まず、学習装置４０は、参照モデルＴｄを生成する（Ｓ１０１）。このとき、学習装置４０は、基準とする動作データ[ｒ、ｙｄ]を取得する。基準となる動作データは、例えば、ワークなし動作を行った場合の、目標値ｒと、サーボ機構２０の制御量ｙとしてよい。取得した動作データ[ｒ、ｙｄ]に基づいて、学習装置４０は、参照モデルＴｄを生成する。

サーボ機構２０にワークが与えられると、目標値に対する補正量ｑを設定する（Ｓ１０２）。補正量ｑは、ユーザが手動で設定してもよいし、すでに調整器３０に学習済みモデルが設定されている場合には、当該学習済みモデルが生成してもよい。

コントローラ１０では、設定された補正量ｑに基づいて指令値ｕが生成され、サーボ機構２０に出力される。サーボ機構２０では、指令値ｕへの応答として制御量ｙが出力される。学習装置４０は、このときの動作データ[ｒ，ｕ，ｙ]を取得する（Ｓ１０３）。

次に、学習の要否が判定される（Ｓ１０４）。例えば、学習部４３は、取得された動作データ[ｒ，ｕ，ｙ]について、品質評価部４２が行った品質の評価の結果に基づいて、要否を判定することができる。なお、学習の要否の判定基準はこれに限定されず、今回のワークのパラメータが過去に学習したパラメータの範囲内か否かや、外部環境が変化したか否かを判定基準に用いてもよい。また例えば、学習の要否は人が判定してもよい。

学習が不要と判定された場合（Ｓ１０４：ＮＯ）には、Ｓ１０２に戻り、次のワークに対して処理が行われる。他方、学習が必要と判定された場合（Ｓ１０４：ＹＥＳ）には、学習部４３は、参照モデルＴｄを参照し、補正量候補ρ*を生成する（Ｓ１０５）。学習部４３は補正量候補ρ*を生成する際に、ＶＲＦＴやＦＲＩＴ、ＥＲＩＴ等のデータ駆動制御の手法を用いることができる。

次に、学習部４３は、生成した補正量候補ρ*と、Ｓ１０２でサーボ機構２０に与えられたワークのパラメータとを対応付けて教師データとして追加するか否かを判定する（Ｓ１０６）。追加するか否かを判定する採用基準は、例えば、算出した補正量候補ρ*が、管理テーブルに登録されている教師データに含まれる補正量から所定の値以上離れた値でないか否かである。また、例えば、採用基準は、算出した補正量候補ρ*が、管理テーブルに登録されている教師データに含まれる補正量の範囲に含まれるか否かでもよい。

追加すると判定した場合（Ｓ１０６：ＹＥＳ）には、学習部４３は、教師データとして、生成した補正量候補ρ*を最適補正量ρ´として、Ｓ１０２でサーボ機構２０に与えられたワークのパラメータαと対応付けてレコードを生成し、管理テーブルに追加する（Ｓ２０１）。他方、追加しないと判定した場合（Ｓ１０６：ＮＯ）には、Ｓ１０１に戻り、次のワークに対して処理が行われる。なお、学習部４３は、Ｓ１０６の判定を行わず、生成した補正量候補ρ*はそのまま最適補正量ρ´として、教師データを生成し、管理テーブルに追加する構成でもよい。

パラメータαと最適補正量候補ρ’とに基づいて教師データを追加すると、学習部４３は、追加学習を実施して、学習済みモデルＬＭ＊を新たに生成（又は更新）する（Ｓ２０２）。

次に、再度、与えられたワークのパラメータがパラメータαに等しい場合（Ｓ２０３：ＹＥＳ）、設定部４４は、生成された学習済みモデルを調整器３０に設定するか否かを判定する（Ｓ２０５）。なお、パラメータαに等しい場合とは、パラメータαと同一の場合に限定されず、パラメータαに近似する場合も含む。パラメータが近似するか否かは、予め定められた範囲に特定のパラメータが含まれるか否かで判断してもよい。一例として、設定部４４は、学習済みモデルＬＭ*を用いて制御を行った結果に基づいて、設定するか否かを判定する。具体的には、設定部４４は、学習済みモデルＬＭ*にパラメータαを与えて補正量ραを生成する。そして補正量ραに基づいて補正された指令値を、サーボ機構２０に与えたときの制御量について、品質評価部４２の品質の評価結果に基づいて、学習済みモデルを調整器３０に設定するか否かを判定してもよい。

品質の評価が所定の許容範囲内である場合には、設定部４４は、新たに生成された学習済みモデルを調整器３０に設定する（Ｓ２０６）。他方、品質の評価が許容範囲に満たない場合（Ｓ２０５：ＮＯ）には、学習部４３が、今回の動作データを取得して、新たに補正量候補ρ*を生成し直す（Ｓ２０４）。このとき、学習部４３はS１０６と同様の生成し直した補正量候補ρ*が採用基準を満たすか否かの判定を行い、採用基準を満たした場合には、補正量候補ρ*を最適補正量ρ’として、Ｓ２０１に戻り、再度学習済みモデルを生成し直す。

§４利点
本実施形態に係る制御システム１では、設定部４４は、学習部４３が生成した学習済みモデルを調整器３０へ設定する。このとき設定部４４は、学習済みモデルを設定する前に、学習済みモデルを評価し、評価結果に基づいて、調整器３０に設定するか否か判定を行う。すなわち、本実施形態に係る学習装置４０によると、動作データに基づいて生成された補正量候補を用いて学習を行い、生成された学習済みモデルに対して設定部４４が評価を行う。例えば設定部４４は、生成された学習済みモデルを用いた制御の結果に基づいて、学習済みモデルの品質の評価を行う。これによって、学習装置４０は、反復実験、すなわち制御対象の実際の動作を繰り返し行うことなく補正量候補を教師データとして用いることが可能になり、適切な教師データを生成するまでの時間を短縮することができる。

§５ハードウェア構成
次に、図６を参照しながら、上述してきた学習装置４０をコンピュータ８００により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の機能は、複数台の装置に分けて実現することもできる。

図６に示すように、コンピュータ８００は、プロセッサ８０１、メモリ８０３、記憶装置８０５、入力Ｉ／Ｆ部８０７、データＩ／Ｆ部８０９、通信Ｉ／Ｆ部８１１、及び表示装置８１３を含む。

プロセッサ８０１は、メモリ８０３に記憶されているプログラムを実行することによりコンピュータ８００における様々な処理を制御する。例えば、学習装置４０の品質評価部４２と、学習部４３と、設定部４４などは、メモリ８０３に一時記憶された上で、主にプロセッサ８０１上で動作するプログラムとして実現可能である。すなわち、プロセッサ８０１がメモリ８０３に一時記憶されたプログラムを解釈実行することにより、品質評価部４２と、学習部４３と、設定部４４の働きが実現される。

メモリ８０３は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の記憶媒体である。メモリ８０３は、プロセッサ８０１によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。

記憶装置８０５は、例えばハードディスクドライブ（ＨＤＤ）やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置８０５は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。この他、記憶装置８０５は、参照モデルＴｄや管理テーブルを記憶することも可能である。このようなプログラムやデータは、必要に応じてメモリ８０３にロードされることにより、プロセッサ８０１から参照される。

入力Ｉ／Ｆ部８０７は、ユーザからの入力を受け付けるためのデバイスである。入力Ｉ／Ｆ部８０７の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力Ｉ／Ｆ部８０７は、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）等のインタフェースを介してコンピュータ８００に接続されても良い。

データＩ／Ｆ部８０９は、コンピュータ８００の外部からデータを入力するためのデバイスである。データＩ／Ｆ部８０９の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データＩ／Ｆ部８０９は、コンピュータ８００の外部に設けられることも考えられる。その場合、データＩ／Ｆ部８０９は、例えばＵＳＢ等のインタフェースを介してコンピュータ８００へと接続される。

通信Ｉ／Ｆ部８１１は、コンピュータ８００の外部の装置と有線又は無線により、インターネットＮを介したデータ通信を行うためのデバイスである。通信Ｉ／Ｆ部８１１は、コンピュータ８００の外部に設けられることも考えられる。その場合、通信Ｉ／Ｆ部８１１は、例えばＵＳＢ等のインタフェースを介してコンピュータ８００に接続される。

表示装置８１３は、各種情報を表示するためのデバイスである。表示装置８１３の具体例としては、例えば液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置８１３は、コンピュータ８００の外部に設けられても良い。その場合、表示装置８１３は、例えばディスプレイケーブル等を介してコンピュータ８００に接続される。

§６他の実施形態
図７を参照して、本発明の他の実施形態に係る制御システム２の構成を説明する。図７は、制御システム２の構成の一例を示す図である。なお、既述の実施形態と共通の事柄についての記述は省略し、異なる点についてのみ説明する。特に、既述の構成には同様の符号を付し、同様の構成による同様の作用効果については実施形態毎には逐次言及しない。

制御システム２は、制御システム１におけるコントローラ１０に代えて、コントローラ１１を有している。また、調整器３０は、コントローラ１１に対して補正量ρを入力する。その他の構成、機能は既述の実施形態と同様である。

コントローラ１１は、調整器３０から入力された補正量ρを、生成した目標値ｒ（ｔ）に加えて指令値ｕ（ｔ）を生成し、サーボ機構２０に入力する。つまり、コントローラ１１の演算式は以下の式（８）である。
ｕ（ｔ）＝ｒ（ｔ）＋ρ・・・式（８）

コントローラ１１によると、伝達関数を用いずに、単純に目標値と補正量とを加算して指令値を算出することができる。これにより伝達関数の設計が不要になるため、制御モデルの設計が容易になる。

以上、本発明の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。

なお、前述までの説明では、学習装置４０は、学習済みモデルを新たに生成する構成として説明したが、既存の学習済みモデルを更新する構成としてもよい。学習済みモデルを新たに生成する構成の場合、学習装置４０は、既存の学習済みモデルを生成したときに用いた教師データに、今回新たに生成した教師データを加えたデータセットを用いた学習により、新たな学習済みモデルを生成することができる。他方、学習済みモデルを更新する構成の場合、学習装置４０は、既存の学習済みモデルに対して、今回新たに生成した教師データを用いて追加学習させることで、学習済みモデルを更新することができる。

前述の実施形態の一部又は全部は、以下の付記のように記載され得るが、以下には限定されない。
（付記１）
補正量（ρ）に基づいて目標値（ｒ）を補正した指令値（ｕ）を出力するコントローラ（１０）と、
処理対象物に対して所定の処理をするよう制御される制御対象（２０）であって、前記コントローラ（１０）から出力される指令値（ｕ）が入力され、当該指令値（ｕ）の応答として制御量が出力される制御対象（２０）と、
を備える制御系（１）において、
前記処理対象物の特定のパラメータに基づいて、前記コントローラ（１０）に対して所定の前記補正量（ρ）を出力するように学習された学習済みモデルを含む調整器（３０）に対して、前記学習済みモデルを提供する学習装置（４０）であって、
前記目標値（ｒ）、前記指令値（ｕ）及び前記制御量（ｙ）を含む動作データを取得して、前記制御量（ｙ）の品質を評価する評価部（４２）と、
前記動作データに基づいて、補正量候補（ρ*）を生成し、生成した補正量候補（ρ*）と、前記処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデルを生成する学習部（４３）と、
前記生成された学習済みモデルによって出力された前記補正量に基づいて補正した指令値（ｕ）を前記制御対象に与えたときの制御量（ｙ）に基づいて、前記評価部（４２）において評価された品質が予め定められた許容範囲内であるときに、前記学習済みモデルを前記調整器（３０）に提供する設定部（４４）と、
を備える学習装置（４０）。
（付記２）
前記設定部（４４）は、
前記制御対象に与えられた処理対象物の特定のパラメータが、前記生成された学習済みモデルの評価が未実施のパラメータに等しいとき、前記生成された学習済みモデルによって出力された補正量を前記コントローラに対して出力し、前記評価部（４２）において品質を評価させる、
付記１に記載の学習装置（４０）。
(付記３）
前記学習部（４３）は、
前記生成された学習済みモデルが出力した補正量（ρ）に基づいて評価させた品質が前記許容範囲に満たないときに改めて学習を行い、学習済みモデルを生成し直す、
付記２に記載の学習装置（４０）。
（付記４）
前記学習部（４３）は、データ駆動制御によって前記補正量候補（ρ*）を生成する、
付記１乃至３の何れか一項に記載の学習装置（４０）。
（付記５）
前記データ駆動制御は、ＶＲＦＴ、ＦＲＩＴ又はＥＲＩＴのいずれかである、
付記４に記載の学習装置（４０）。
（付記６）
補正量（ρ）に基づいて目標値（ｒ）を補正した指令値（ｕ）を出力するコントローラ（１０）と、
処理対象物に対して所定の処理をするよう制御される制御対象（２０）であって、前記コントローラ（１０）から出力される指令値（ｕ）が入力され、当該指令値（ｕ）の応答として制御量が出力される制御対象（２０）と、
を備える制御系（１）において、
前記処理対象物の特定のパラメータに基づいて、前記コントローラ（１０）に対して所定の前記補正量（ρ）を出力するように学習された学習済みモデルを含む調整器（３０）に対して、前記学習済みモデルを提供する学習装置（４０）において実行される学習方法であって、
前記学習装置（４０）が、
前記目標値（ｒ）、前記指令値（ｕ）及び前記制御量（ｙ）を含む動作データを取得して、前記制御量（ｙ）の品質を評価するステップと、
前記動作データに基づいて、補正量候補（ρ*）を生成し、生成した補正量候補（ρ*）と、前記処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデル（ＬＭ*）を生成するステップと、
前記生成された学習済みモデルによって出力された補正量に基づいて目標値を補正した指令値を前記制御対象に与えたときの制御量に基づいて、前記評価するステップにおいて評価された品質が予め定められた許容範囲内であるときに、前記学習済みモデルを前記調整器に提供するステップと、
を実行する学習方法。
（付記７）
補正量（ρ）に基づいて目標値（ｒ）を補正した指令値（ｕ）を出力するコントローラ（１０）と、
処理対象物に対して所定の処理をするよう制御される制御対象（２０）であって、前記コントローラ（１０）から出力される指令値（ｕ）が入力され、当該指令値（ｕ）の応答として制御量が出力される制御対象（２０）と、
を備える制御系（１）において、
前記処理対象物の特定のパラメータに基づいて、前記コントローラ（１０）に対して所定の前記補正量（ρ）を出力するように学習された学習済みモデルを含む調整器（３０）に対して、前記学習済みモデルを提供する学習装置（４０）を機能させるプログラムであって、
前記学習装置（４０）を、
前記目標値（ｒ）、前記指令値（ｕ）及び前記制御量（ｙ）を含む動作データを取得して、前記制御量（ｙ）の品質を評価する手段、
前記動作データに基づいて、補正量候補（ρ*）を生成し、生成した補正量候補（ρ*）と、前記処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデルを生成する手段、及び
前記生成された学習済みモデルによって出力された補正量候補に基づいて目標値を補正した指令値を前記制御対象に与えたときの制御量に基づいて、前記評価する手段において評価された品質が予め定められた許容範囲内であるときに、前記学習済みモデル（ＬＭ*）を前記調整器に提供する手段、
として機能させるプログラム。

１、２制御システム
１０、１１コントローラ
２０サーボ機構
３０調整器
４０学習装置
４１記憶部
４２品質評価部
４３学習部
４４設定部
８００コンピュータ
８０１プロセッサ
８０３メモリ
８０５記憶装置

Claims

補正量に基づいて目標値を補正した指令値を出力するコントローラと、
処理対象物に対して所定の処理をするよう制御される制御対象であって、前記コントローラから出力される指令値が入力され、当該指令値の応答として制御量が出力される制御対象と、
を備える制御系において、
前記処理対象物の特定のパラメータに基づいて、前記コントローラに対して所定の前記補正量を出力するように学習された学習済みモデルを含む調整器に対して、前記学習済みモデルを提供する学習装置であって、
前記目標値、前記指令値及び前記制御量を含む動作データを取得して、前記制御量の品質を評価する評価部と、
前記動作データに基づいて、補正量候補を生成し、生成した補正量候補と、前記処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデルを生成する学習部と、
前記生成された学習済みモデルによって出力された補正量に基づいて目標値を補正した指令値を前記制御対象に与えたときの制御量に基づいて、前記評価部において評価された品質が予め定められた許容範囲内であるときに、前記学習済みモデルを前記調整器に提供する設定部と、
を備える学習装置。
前記設定部は、
前記制御対象に与えられた処理対象物の特定のパラメータが、前記生成された学習済みモデルの評価が未実施のパラメータに等しいとき、前記生成された学習済みモデルによって出力された補正量を前記コントローラに対して出力し、前記評価部において品質を評価させる、
請求項１に記載の学習装置。
前記学習部は、
前記生成された学習済みモデルが出力した補正量に基づいて評価させた品質が、前記許容範囲に満たないときに改めて学習を行い、学習済みモデルを生成し直す、
請求項２に記載の学習装置。
前記学習部は、データ駆動制御によって前記補正量候補を生成する、
請求項１乃至３の何れか一項に記載の学習装置。
前記データ駆動制御は、ＶＲＦＴ、ＦＲＩＴ又はＥＲＩＴのいずれかである、
請求項４に記載の学習装置。
補正量に基づいて目標値を補正した指令値を出力するコントローラと、
処理対象物に対して所定の処理をするよう制御される制御対象であって、前記コントローラから出力される指令値が入力され、当該指令値の応答として制御量が出力される制御対象と、
を備える制御系において、
前記処理対象物の特定のパラメータに基づいて、前記コントローラに対して所定の前記補正量を出力するように学習された学習済みモデルを含む調整器に対して、前記学習済みモデルを提供する学習装置で実行される方法であって、
前記学習装置が、
前記目標値、前記指令値及び前記制御量を含む動作データを取得して、前記制御量の品質を評価するステップと、
前記動作データに基づいて、補正量候補を生成し、生成した補正量候補と、前記処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデルを生成するステップと、
前記生成された学習済みモデルによって出力された補正量に基づいて目標値を補正した指令値を前記制御対象に与えたときの制御量に基づいて、前記評価するステップ部において評価された品質が予め定められた許容範囲内であるときに、前記学習済みモデルを前記調整器に提供するステップと、
を実行する方法。
補正量に基づいて目標値を補正した指令値を出力するコントローラと、
処理対象物に対して所定の処理をするよう制御される制御対象であって、前記コントローラから出力される指令値が入力され、当該指令値の応答として制御量が出力される制御対象と、
を備える制御系において、
前記処理対象物の特定のパラメータに基づいて、前記コントローラに対して所定の前記補正量を出力するように学習された学習済みモデルを含む調整器に対して、前記学習済みモデルを提供する学習装置を機能させるプログラムであって、
前記学習装置を、
前記目標値、前記指令値及び前記制御量を含む動作データを取得して、前記制御量の品質を評価する手段、
前記動作データに基づいて、補正量候補を生成し、生成した補正量候補と、前記処理対象物の特定のパラメータとを教師データとして学習を行い、学習済みモデルを生成する手段、及び
前記生成された学習済みモデルによって出力された補正量に基づいて目標値を補正した指令値を前記制御対象に与えたときの制御量に基づいて、前記評価する手段において評価された品質が予め定められた許容範囲内であるときに、前記学習済みモデルを前記調整器に提供する手段、
として機能させるプログラム。