JP2023078694A

JP2023078694A - 装置、方法およびプログラム

Info

Publication number: JP2023078694A
Application number: JP2021191945A
Authority: JP
Inventors: 豪 ▲高▼見; Go Takami; 順二山本; Junji Yamamoto; 恵一郎小渕; Keiichiro Obuchi; 宏明鹿子木; Hiroaki Kaneki; 陽太古川; Yota Furukawa
Original assignee: Yokogawa Electric Corp
Current assignee: Yokogawa Electric Corp
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2023-06-07

Abstract

【解決手段】設備に関する状態パラメータの値が入力されることに応じて、設備の制御パラメータの推奨値を出力する操業モデルに対し、状態パラメータの値を供給する供給部と、供給部が操業モデルに状態パラメータの値を供給することに応じて当該操業モデルから出力される制御パラメータの推奨値を取得する制御パラメータ取得部と、制御パラメータ取得部により取得された推奨値により設備を操業した結果に応じたモデル評価値を取得する取得部と、モデル評価値、および、設備を人手の操作により操業した結果に応じた基準評価値に基づいて操業モデルを評価する評価部と、を備える装置が提供される。【選択図】図１

Description

本発明は、装置、方法およびプログラムに関する。

特許文献１には、「測定データの入力に応じ、予め設定された報酬関数により定まる報酬値を高めるために推奨される第１種類の制御内容を示す推奨制御パラメータを出力する第１モデルの学習処理を実行する」と記載されている。
［先行技術文献］
［特許文献］
［特許文献１］特開２０２１－０８６２８３号公報
［特許文献２］特開２０２０－０２７５５６号公報
［特許文献３］特開２０１９－０２０８８５号公報
［非特許文献］
［非特許文献１］高見豪、「プラント制御ＡＩの実現」、横河技報、横河電機株式会社、２０２０年、Ｖｏｌ．６３、第１号、ｐ．３３～３６
［非特許文献２］今井拓司、「横河電機とNAISTが化学プラント向けに強化学習、少ない試行回数で高度な制御を実現」、日経Ｒｏｂｏｔｉｃｓ、株式会社日経ＢＰ，２０１９年３月号

本発明の第１の態様においては、装置が提供される。装置は、設備に関する状態パラメータの値が入力されることに応じて、設備の制御パラメータの推奨値を出力する操業モデルに対し、状態パラメータの値を供給する供給部を備えてよい。装置は、供給部が操業モデルに状態パラメータの値を供給することに応じて当該操業モデルから出力される制御パラメータの推奨値を取得する制御パラメータ取得部を備えてよい。装置は、制御パラメータ取得部により取得された推奨値により設備を操業した結果に応じたモデル評価値を取得する取得部を備えてよい。装置は、モデル評価値、および、設備を人手の操作により操業した結果に応じた基準評価値に基づいて操業モデルを評価する評価部を備えてよい。

基準評価値は、設備のシミュレータに人手の操作を入力した結果に基づいて算出されてよい。

モデル評価値は、制御パラメータ取得部により取得された推奨値を設備のシミュレータに入力した結果に基づいて算出されてよい。

モデル評価値は、推奨値により操業された設備に関するパラメータが目標範囲内に収まるか否かに基づいて算出されてよい。基準評価値は、人手の操作により操業された設備に関するパラメータが目標範囲内に収まるか否かに基づいて算出されてよい。

装置は、設備に関する複数種類のパラメータのうち、オペレータにより選択される選択パラメータについてオペレータにより設定される目標範囲を取得する目標範囲取得部をさらに備えてよい。

装置は、複数種類のパラメータから選択パラメータが選択されることに応じて、設備の過去の操業での当該選択パラメータの値を表示させる表示制御部をさらに備えてよい。

表示制御部は、各選択パラメータを座標軸とする座標空間に、設備の過去の操業での各選択パラメータの値を表示させてよい。

設備は、物の製造を行う設備であってよい。設備に関するパラメータは、物の品質を示す指標値または物の生産量の少なくとも１つであってよい。

装置は、状態パラメータの値、および、制御パラメータの値を含む学習データを用いて操業モデルの学習処理を実行する学習処理部をさらに備えてよい。

学習処理部は、学習データと、予め設定された報酬関数により定まる報酬値とを用いて操業モデルの学習処理を実行してよい。

本発明の第２の態様においては、方法が提供される。方法は、設備に関する状態を示す状態パラメータの値が入力されることに応じて、設備の制御パラメータの推奨値を出力する操業モデルに対し、状態パラメータの値を供給する供給段階を備えてよい。方法は、供給段階により操業モデルに状態パラメータの値を供給することに応じて当該操業モデルから出力される制御パラメータの推奨値を取得する制御パラメータ取得段階を備えてよい。方法は、制御パラメータ取得段階により取得された推奨値により設備を操業した結果に応じたモデル評価値を取得する取得段階を備えてよい。方法は、モデル評価値、および、設備を人手の操作により操業した結果に応じた基準評価値に基づいて操業モデルを評価する評価段階を備えてよい。

本発明の第３の態様においては、プログラムが提供される。プログラムは、コンピュータを、設備に関する状態パラメータの値が入力されることに応じて、設備の制御パラメータの推奨値を出力する操業モデルに対し、状態パラメータの値を供給する供給部として機能させてよい。プログラムは、コンピュータを、供給部が操業モデルに状態パラメータの値を供給することに応じて当該操業モデルから出力される制御パラメータの推奨値を取得する制御パラメータ取得部として機能させてよい。プログラムは、コンピュータを、制御パラメータ取得部により取得された推奨値により設備を操業した結果に応じたモデル評価値を取得する取得部として機能させてよい。プログラムは、コンピュータを、モデル評価値、および、設備を人手の操作により操業した結果に応じた基準評価値に基づいて操業モデルを評価する評価部として機能させてよい。

なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。

実施形態に係るシステム１を示す。操業モデル４０１のデータ構造を示す。行動決定テーブルを示す。操業モデル４０１の学習動作を示す。操業モデル４０１の他の学習動作を示す。目標設定モデル４１４の学習動作を示す。操業モデル４０１の評価動作を示す。設備２の操業動作を示す。変形例に係る目標設定モデル４１４Ａを示す。本発明の複数の態様が全体的または部分的に具現化されてよいコンピュータ２２００の例を示す。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

［１．システム］
図１は、本実施形態に係るシステム１を示す。システム１は、設備２と、装置４とを備える。なお、図中のブロックは、それぞれ機能的に分離された機能ブロックであって、実際の装置構成とは必ずしも一致していなくてもよい。すなわち、本図において、１つのブロックとして示されているからといって、それが必ずしも１つの装置により構成されていなくてもよい。また、本図において、別々のブロックとして示されているからといって、それらが必ずしも別々の装置により構成されていなくてもよい。

［１．１．設備２］
設備２は、１または複数の機器（図示せず）が備え付けられた施設や装置等である。例えば、設備２は、プラントであってもよいし、複数の機器を複合させた複合装置であってもよい。プラントとしては、化学やバイオ等の工業プラントの他、ガス田や油田等の井戸元やその周辺を管理制御するプラント、水力・火力・原子力等の発電を管理制御するプラント、太陽光や風力等の環境発電を管理制御するプラント、上下水やダム等を管理制御するプラント等が挙げられる。

各機器は、器具、機械または装置であり、例えば、設備２のプロセスにおける圧力、温度、ｐＨ、速度、流量などの少なくとも１つの物理量を制御するバルブ、ポンプ、ヒータ、ファン、モータ、スイッチ等のアクチュエータであってよい。各機器は互いに異種でもよいし、少なくとも一部の２以上の機器が同種でもよい。各機器は、装置２により有線または無線で制御されてよい。

設備２には、１または複数のセンサ（図示せず）が設けられてよい。各センサは、設備２に関する状態の計測または判別を行う。各センサは、設備２の生産量、混入する不純物の割合、各制御対象の運転状況、アラームの発生状況等の操業状態の計測または判別を行ってよい。機器の運転状況は、一例として機器により制御される圧力、温度、ｐＨ、速度、流量などの少なくとも１つの物理量で表されてよい。各センサは、計測または判別の結果を、装置２に供給してよい。

［１．２．装置４］
装置４は、設備２を操業する操業モデル４０１を用いて設備２を操業するものであってよく、操業モデル４０１と、操業部４０２と、パラメータ取得部４０３とを有してよい。また、装置４は、操業モデル４０１の学習処理を行うものであってよく、入力部４１１と、記憶部４１２と、第２学習処理部４１３と、目標設定モデル４１４と、第１供給部４１５と、第２取得部４１６と、第２供給部４１７とを有してよい。また、装置４は、目標設定モデル４１４の学習処理を行うものであってよく、第１取得部４２１と、第１学習処理部４２２とを有してよい。また、装置４は、操業モデル４０１の評価を行うものであってよく、シミュレータ４３１と、表示制御部４３２と、目標範囲取得部４３３と、評価値取得部４３４と、評価部４３５とを有してよい。

［１．２．１．操業モデル４０１］
操業モデル４０１は、設備２を操業するためのモデルである。操業モデル４０１は、設備２に関する状態パラメータの値が入力されることに応じて設備２の制御パラメータの推奨値を出力してよい。操業モデル４０１は、制御パラメータを操業部４０２に供給してよい。

操業モデル４０１は、状態パラメータの値が入力されることに応じて、設備２に関する状態を当該操業モデル４０１の学習に用いられた目標設定データの内容に応じた状態に近づける制御パラメータの推奨値を出力してよい。目標設定データは、設備２に関するパラメータのうち、目標範囲の設定対象とされたパラメータの識別情報、および、当該パラメータに対して設定された目標範囲を含んでよい。目標設定データは、パラメータの識別情報および目標範囲の組み合わせを１つのみ含んでもよいし、複数含んでもよい。

設備２に関するパラメータは、設備２に関する状態パラメータと、設備２の制御パラメータとを含んでよい。設備２に関する状態パラメータは、設備２の状態パラメータと、設備２の操業による生産物の状態パラメータ（パフォーマンスパラメータとも称する）とを含んでよい。設備２の状態パラメータは、例えば圧力や流量、温度、ｐＨ，速度、消費電力、濃度などであってよい。設備２の状態パラメータは、設備２の消費エネルギーに関するパラメータであってもよいし、温室効果ガスの排出量に関するパラメータであってもよいし、歩留まりに関するパラメータであってもよい。生産物の状態パラメータは、例えば品質を示す指標値（品質値とも称する）や生産量などであってよい。品質値は、例えば生産物の純度や濃度、組成、粘度、色などを示す値であってよい。制御パラメータは、例えばバルブの操作量などであってよい。なお、本実施形態では一例として、目標範囲の設定対象のパラメータは、設備２に関する状態パラメータであってよい。

［１．２．２．操業部４０２］
操業部４０２は、操業モデル４０１を用いて設備２を操業する。操業部４０２は、制御パラメータ取得部の一例であってよく、後述のパラメータ取得部４０３が操業モデル４０１に状態パラメータの値を供給することに応じて当該操業モデル４０１から出力される制御パラメータの推奨値を取得してよい。操業部４０２は、操業モデル４０１から出力される制御パラメータを用いて設備２の各機器を制御することで、設備２を操業してよい。操業部４０２は、操業モデル４０１から出力される制御パラメータの推奨値をシミュレータ４３１に供給して、設備２の操業をシミュレートさせてもよい。

なお、操業部４０２は、入力部４１１を介して入力される人手の操作に応じて設備２を操業してもよい。操業部４０２は、人手の操作に応じた制御パラメータをシミュレータ４３１に供給して、設備２の操業をシミュレートさせてもよい。

［１．２．３．パラメータ取得部４０３］
パラメータ取得部４０３は、設備２に関するパラメータを取得する。パラメータ取得部４０３は、設備２の制御パラメータを操業部４０２から取得してよい。パラメータ取得部４０３は、設備２に関する状態パラメータ（本実施形態では一例として生産物の状態パラメータおよび設備２の状態パラメータ）を設備２から取得してよい。但し、パラメータ取得部４０３は、設備２の制御パラメータを設備２から取得してもよいし、生産物の状態パラメータをオペレータから取得してもよい。また、シミュレータ４３１によって設備２のシミュレーションが行われる場合には、パラメータ取得部４０３は、シミュレーションされた設備２に関するパラメータのうち、設備２に関する状態パラメータをシミュレータ４３１から取得してもよい。

パラメータ取得部４０３は、取得した各パラメータを記憶部４１２に記憶させてよい。パラメータ取得部４０３は、供給部の一例であってよく、操業モデル４０１に対し、状態パラメータの値を供給してよい。

［１．２．４．入力部４１１］
入力部４１１は、オペレータから種々の入力操作を受ける。入力部４１１は、オペレータから設備２の操業計画の入力操作を受けてよい。また、入力部４１１は、オペレータから目標設定データの入力操作を受けてよい。目標設定モデル４１４の学習処理が完了していない場合には、操業計画と、目標設定データとは対応付けて入力されてよい。

ここで、設備２の操業計画は、設備２によって生産される物の生産計画量、目標品質および材料種別の少なくとも１つを示してよい。設備２の操業計画は、設備２のエネルギー効率や消費電力、歩留まり、温室効果ガスの排出量など、他の内容を示してもよい。

入力部４１１は、入力された操業計画および目標設定データを記憶部４１２に記憶させてよい。入力部４１１は、入力された目標設定データを第２学習処理部４１３に供給してよい。入力部４１１は、入力された操業計画を第１供給部４１５に供給してよい。

［１．２．５．記憶部４１２］
記憶部４１２は、種々のデータを記憶する。記憶部４１２は、パラメータ取得部４０３により取得された各パラメータを記憶してよい。また、記憶部４１２は、入力部４１１により入力された目標設定データと、設備２の操業計画とを記憶してよい。記憶部４１２に記憶される目標設定データは、操業モデル４０１の学習に用いられたデータであってよく、一例としてベテランのオペレータにより設定されたデータであってよい。なお、後述の目標設定モデル４１４に操業計画を供給して目標設定データが生成される場合には、記憶部４１２は、当該目標設定データと操業計画とをさらに記憶してよい。記憶部４１２に記憶されたデータは、第１学習処理部４２２および第２学習処理部４１３による学習処理に使用されてよい。

［１．２．６．第２学習処理部４１３］
第２学習処理部４１３は、設備２に関する状態パラメータの値、および、設備２の制御パラメータの値を含む学習データを用い、状態パラメータの値が入力されることに応じて制御パラメータの推奨値を出力するように操業モデル４０１の学習処理を実行する。第２学習処理部４１３が用いる学習データに含まれる状態パラメータおよび制御パラメータの種類は、パラメータ取得部４０３により取得されるパラメータの中でオペレータにより任意に選択されてよい。

第２学習処理部４１３は、操業モデル４０１の学習処理を強化学習により行ってよい。例えば、第２学習処理部４１３は、学習データと、予め設定された報酬関数により定まる報酬値とを用いて操業モデル４０１の学習処理を実行してよい。

第２学習処理部４１３は、目標設定データをさらに用いて操業モデル４０１の学習処理を行ってよく、状態パラメータの値が入力されることに応じて、設備２に関する状態を、当該目標設定データの内容に応じた状態に近づける制御パラメータの値を出力するように学習処理を行ってよい。この場合に、第２学習処理部４１３は、目標設定データの内容に基づいて設定された報酬関数により定まる報酬値を用いて学習処理を行ってよい。

例えば、報酬関数は、操業モデル４０１から出力される制御パラメータを用いて操業された設備２に関する状態パラメータの値が目標設定データの内容を満たす場合に報酬値を１とし、満たさない場合に報酬値を０とする関数であってよい。また、報酬関数は、操業モデル４０１から出力される制御パラメータを用いて操業された設備２に関する状態パラメータの値が目標設定データの目標範囲から外れる度合いに応じて報酬値を変化させる関数であってよい。一例として、報酬関数は、次の式（１）で示される関数であってよい。

報酬値＝ａ＊省エネ指標－ｂ＊品質値の外れ度（１）
なお、式（１）中「ａ」，「ｂ」は係数であってよい。「省エネ指標」とは、設備２の省エネルギーの度合いを示す指標であり、設備２の状態パラメータから算出される値であってよい。「品質値の外れ度」とは、生産物の品質値が目標設定データにおける品質値の目標範囲から外れた大きさであってよい。

［１．２．７．目標設定モデル４１４］
目標設定モデル４１４は、操業計画が入力されることに応じて、操業モデル４０１の学習に用いるべき目標設定データのうち、パラメータの識別情報または目標範囲の少なくとも一方を出力する。本実施形態では一例として、目標設定モデル４１４は、パラメータの識別情報および目標範囲の両方を出力してよい。目標設定モデル４１４は、パラメータの識別情報および目標範囲の組み合わせを１つのみ出力してもよいし、複数出力してもよい。

［１．２．８．第１供給部４１５］
第１供給部４１５は、設備２の操業計画が入力されることに応じて、目標設定モデル４１４に当該操業計画を供給する。第１供給部４１５には、入力部４１１に対して新たに操業計画が入力されることに応じて、当該新たな操業計画を目標設定モデル４１４に供給してよい。これにより、操業計画に応じたデータが目標設定モデル４１４から出力される。

［１．２．９．第２取得部４１６］
第２取得部４１６は、第１供給部４１５によって操業計画が供給された目標設定モデル４１４からの出力データを取得する。本実施形態では一例として、第２取得部４１６は、目標設定モデル４１４からパラメータの識別情報および目標範囲の両方を出力データとして取得してよい。第２取得部４１６は、取得した出力データを第２供給部４１７に供給してよい。

［１．２．１０．第２供給部４１７］
第２供給部４１７は、第２学習処理部４１３に対し、第２取得部４１６により取得された出力データに応じた目標設定データを供給する。これにより、第２供給部４１７から供給された目標設定データを用いて操業モデル４０１の学習処理が行われる。

なお、本実施形態においては一例として、目標設定モデル４１４からの出力データは、パラメータの識別情報および目標範囲の両方を含んでいる。そのため、第２供給部４１７は、出力データをそのまま目標設定データとして操業モデル４０１に供給してよい。

［１．２．１１．第１取得部４２１］
第１取得部４２１は、設備２の操業計画と、操業モデル４０１の学習に用いられた目標設定データのうちの少なくともパラメータの識別情報と、を取得する。本実施形態では一例として、第１取得部４２１は、目標設定データのうちのパラメータの識別情報および目標範囲の両方を取得してよい。第１取得部４２１は、取得したデータを第１学習処理部４２２に供給してよい。

［１．２．１２．第１学習処理部４２２］
第１学習処理部４２２は、第１取得部４２１が取得したパラメータの識別情報および操業計画を含む学習データを用いて目標設定モデル４１４の学習処理を行う。

第１学習処理部４２２は、ディープラーニングなどの教師あり学習によって目標設定モデル４１４の学習処理を行うが、他の機械学習の手法によって目標設定モデル４１４の学習を行ってもよい。例えば、第１学習処理部４２２は、操業モデル４０１の学習に用いられた目標設定データにおけるパラメータの識別情報と、当該目標設定データと対応付けて入力された操業計画とを含む学習データを用いて目標設定モデル４１４の学習処理を行ってよい。本実施形態では一例として、第１学習処理部４２２は、ベテランのオペレータにより設定されて操業モデル４０１の学習に用いられた目標設定データにおけるパラメータの識別情報と、当該目標設定データと対応付けて入力された操業計画とを含む学習データを用いて目標設定モデル４１４の学習処理を行ってよい。

第１学習処理部４２２は、目標設定モデル４１４からの出力データの内容が、操業モデル４０１の学習に用いられた目標設定データの内容に近似するように、目標設定モデル４１４の学習処理を行ってよい。また、第１学習処理部４２２は、目標設定モデル４１４に対し、操業計画が入力されることに応じて、当該操業計画が達成されるために操業モデル４０１の学習に用いられるべき目標設定データのパラメータの識別情報や目標範囲を出力するように学習処理を行ってよい。

第１学習処理部４２２は、第１取得部４２１が取得したパラメータの目標範囲をさらに含む学習データを用いて目標設定モデル４１４の学習処理を行ってよい。つまり、第１学習処理部４２２は、操業モデル４０１の学習に用いられた目標設定データにおけるパラメータの識別情報および目標範囲を含む学習データを用いて目標設定モデル４１４の学習処理を行ってよい。第１学習処理部４２２は、目標設定モデル４１４に対し、操業計画が入力されることに応じて、当該操業計画が達成されるために操業モデル４０１の学習に用いられるべき目標設定データのうち、パラメータの識別情報および目標範囲の両方を出力するように学習処理を行ってよい。

［１．２．１３．シミュレータ４３１］
シミュレータ４３１は、設備２の状態をシミュレーションする。シミュレータ４３１は、設備２の定常状態から停止までを動的にシミュレーションするダイナミックシミュレータでもよいし、設備２の定常状態をシミュレーションするスタティックシミュレータでもよい。

シミュレータ４３１は、操業部４０２から供給される制御パラメータの値に基づいて操業された設備２に関する状態をシミュレートしてよい。操業部４０２から供給される制御パラメータの値は、操業モデル４０１から出力される制御パラメータの推奨値であってもよいし、人手の操作に応じた制御パラメータであってもよい。シミュレータ４３１は、シミュレーションにおいて操業された設備２に関するパラメータ（本実施形態では一例として、設備２に関する状態パラメータ）を評価値取得部４３４およびパラメータ取得部４０３に供給してよい。

［１．２．１４．表示制御部４３２］
表示制御部４３２は、図示しない表示装置に種々の情報を表示させる。例えば、表示制御部４３２は、目標設定モデル４１４から第２取得部４１６が取得したパラメータの識別情報や目標範囲を表示させてもよい。また、表示制御部４３２は、パラメータ取得部４０３により取得された各パラメータを記憶部４１２から読み出して表示させてよい。表示制御部４３２は、設備２に関する複数種類のパラメータから何れかのパラメータ（選択パラメータとも称する）がオペレータにより選択されることに応じて、設備２の過去の操業での当該選択パラメータの値を表示させてよい。

なお、設備２が物の製造を行う場合には、表示制御部４３２と、後述の目標範囲取得部４３３、評価値取得部４３４および評価部４３５とにおいて、設備２に関するパラメータは、生産物に関する状態パラメータであってよく、本実施形態では一例として生産物の品質を示す指標値または生産物の生産量の少なくとも１つであってよい。これに加えて、または、これに代えて、設備２に関するパラメータは、設備２の状態パラメータ（一例として設備２のエネルギー効率や消費電力など）であってもよいし、設備２の制御パラメータであってもよい。

［１．２．１５．目標範囲取得部４３３］
目標範囲取得部４３３は、オペレータにより選択された選択パラメータについて、操業モデル４０１を評価するためにオペレータにより設定される目標範囲（評価用目標範囲とも称する）を取得する。例えば、目標範囲取得部４３３は、表示制御部４３２によって各選択パラメータについて表示される過去の操業での値に基づいてオペレータにより設定される評価用目標範囲を取得してよい。目標範囲取得部４３３は、取得した評価用目標範囲を評価値取得部４３４に供給してよい。

なお、評価用目標範囲は、操業モデル４０１の学習に用いられた目標設定データ内の目標範囲と同じであってもよいし、異なってもよい。また、評価用目標範囲が設定されるパラメータは、操業モデル４０１の学習に用いられた目標設定データ内のパラメータと同じであってもよいし、異なってもよい。

［１．２．１６．評価値取得部４３４］
評価値取得部４３４は、操業部４０２により操業モデル４０１から取得された推奨値により設備２を操業した結果に応じたモデル評価値を取得する。評価値取得部４３４は、取得したモデル評価値を評価部４３５に供給してよい。

モデル評価値は、操業モデル４０１を評価するための評価値であってよい。本実施形態においては一例として、モデル評価値は、操業モデル４０１から出力された推奨値によって操業された設備２に関するパラメータが評価用目標範囲に収まるか否かに基づいて算出されてよい。なお、モデル評価値は、第２学習処理部４１３が操業モデル４０１の強化学習において用いる報酬値と同じ値であってもよいし、異なる値であってもよい。

また、評価値取得部４３４は、設備２を人手の操作（一例としてベテランのオペレータの操作）により操業した結果に応じた基準評価値をさらに取得してよい。評価値取得部４３４は、取得した基準評価値を評価部４３５に供給してよい。

基準評価値は、モデル評価値の基準値であってよい。基準評価値は、人手の操作により操業された設備２に関するパラメータが目標範囲内に収まるか否かに基づいて、モデル評価値と同様に算出されてよい。

［１．２．１７．評価部４３５］
評価部４３５は、モデル評価値、および、基準評価値に基づいて操業モデル４０１を評価する。評価部４３５は、モデル評価値と基準評価値との比較結果に基づいて操業モデル４０１を評価してよい。例えば、評価部４３５は、モデル評価値が基準評価値よりも良好な値である場合に、操業モデル４０１が良好である旨の評価を行ってよい。評価部４３５は、評価結果を表示制御部４３２などに出力してよい。

以上の装置４によれば、目標設定モデル４１４は、操業計画が入力されることに応じて、操業モデル４０１の学習に用いるべき目標設定データのうちパラメータの識別情報または目標範囲の少なくとも一方を出力する。また、目標設定モデル４１４の学習処理は、設備２の操業計画と、操業モデル４０１の学習に用いられた目標設定データのうちの少なくともパラメータの識別情報とを含む学習データを用いて行われる。従って、目標設定モデル４１４からの出力データ（ここではパラメータの識別情報または目標範囲の少なくとも一方）の内容を、操業計画が達成されるために操業モデル４０１の学習において用いられた目標設定データの内容に近似させることができる。よって、目標設定モデル４１４からの出力データを用いて操業モデル４０１の学習処理を行うことにより、操業計画に応じた適切な操業を行う操業モデル４０１を生成することができる。

また、目標設定データを用い、状態パラメータの値が入力されることに応じて、設備２に関する状態を当該目標設定データの内容に応じた状態に近づける制御パラメータの値を出力するように操業モデル４０１の学習処理が行われる。従って、適切な操業状態で設備２の操業を行う操業モデル４０１を生成することができる。

また、新たな操業計画が入力されることに応じて、当該操業計画が目標設定モデル４１４に供給され、目標設定モデル４１４からの出力データに応じた目標設定データを用いて操業モデル４０１の学習処理が行われる。従って、操業計画が変更されるごとに、操業計画に応じた目標設定データを用いて操業モデル４０１の学習処理を行い、操業計画に応じた適切な操業を行う操業モデル４０１を生成することができる。

また、操業モデル４０１から出力される制御パラメータの推奨値により設備２を操業した結果に応じたモデル評価値と、設備２を人手の操作により操業した結果に応じた基準評価値と基づいて操業モデル４０１が評価される。従って、操業モデル４０１を用いることによる操業結果の良否、ひいては操業モデル４０１の良否を画一的に判断することができる。

また、操業モデル４０１から出力される制御パラメータの推奨値により操業された設備２に関するパラメータが操業モデル４０１の評価用目標範囲内に収まるか否かに基づいてモデル評価値が算出され、人手の操作により操業された設備２に関するパラメータが評価用目標範囲内に収まるか否かに基づいて基準評価値が算出される。従って、操業モデル４０１を用いることによる操業結果の良否をいっそう画一的に判断することができる。

また、設備２に関する複数種類のパラメータのうち、オペレータにより選択される選択パラメータについて、オペレータにより設定される評価用目標範囲が取得されるので、任意のパラメータについて任意の評価用目標範囲を設定することができる。従って、操業結果の評価基準を任意に設定することができる。

また、複数種類のパラメータから選択パラメータが選択されることに応じて、設備２の過去の操業での当該選択パラメータの値が表示されるので、過去の選択パラメータの値に基づいて評価用目標範囲を設定することができる。

また、操業モデル４０１の評価において、設備２に関するパラメータは設備２による生産物の品質を示す指標値または生産物の生産量の少なくとも１つであるので、生産量や品質が向上する操業モデル４０１を良好な操業モデル４０１とする評価結果を取得することができる。従って、評価の高い操業モデル４０１を用いることにより、生産量や品質を向上させることができる。

また、状態パラメータの値、および、制御パラメータの値を含む学習データを用いて第２学習処理部４１３により操業モデル４０１の学習処理が実行されるので、評価の低い操業モデル４０１に学習処理を行い、評価の高い操業モデル４０１を得ることができる。

また、学習データと、予め設定された報酬関数により定まる報酬値とを用いて操業モデル４０１の学習処理が実行されるので、評価の高い操業モデル４０１を確実に得ることができる。

［２．操業モデル４０１］
図２は、操業モデル４０１のデータ構造を示す。操業モデル４０１は、サンプリングされた状態データの集合を示す状態ｓと各状態下に取られた行動ａとの組み合わせ（ｓ，ａ）と、報酬によって計算されたウエイトｗとで構成されるデータ構造を有する。なお、このようなウエイトは、目標設定データを用いた報酬関数により定まる報酬に基づいて決定されてよい。本図においては、一例として、状態ｓ＝（ＴＩ００１，ＴＩ００２，ＴＩ００３，ＦＩ００１，ＦＩ００２，ＶＩ００１）とした場合を示している。そして、本図においては、例えば、ｓ＝（－２．４７８０３，－２．４８４１３，－０．０７３２４，２９．７１１９１，２４．２５１１，７０）の状態下でａ＝１の行動が取られた場合に、報酬によって計算されたウエイトがｗ＝１４４．１４８４であることを意味している。このような操業モデル４０１により次の行動が決定される。

図３は、行動決定テーブルを示す。行動決定テーブルは、入力された状態ｓと取り得る行動ａとで構成される。本図においては、一例として、入力された状態がｓ＝（０．１，０．２，０．４，０．３，０．８，０．２）であり、取り得る行動がａ＝（－３，－１，０，１，３）の５つである場合を示している。例えば、このような行動決定テーブルを図４に示される操業モデル４０１に入力することにより、次の行動が決定される。これについてフローを用いて詳細に説明する。

［３．装置４の動作］
［３．１．操業モデル４０１の学習動作］
図４は、操業モデル４０１の学習動作を示す。装置１は、ステップＳ１０１～Ｓ１１９の処理により操業モデル４０１を生成してよい。

ステップＳ１０１において、第２学習処理部４１３は、目標設定データを取得する。本図の動作において第２学習処理部４１３は、入力部４１１を介して入力されたパラメータの識別情報と、当該パラメータの目標範囲とを含む目標設定データを取得してよい。

なお、ステップＳ１０１において表示制御部４３２は、操業モデル４０１の学習で以前に用いられた目標設定データの内容を表示させてもよい。例えば、表示制御部４３２は、設備２に関する複数種類のパラメータの何れかが目標範囲の設定対象としてオペレータにより選択されることに応じて、当該パラメータについて以前に設定された目標範囲を表示させてよい。また、表示制御部４３２は、以前に設定された目標範囲に含まれる少なくとも一部の領域を、推奨される目標範囲としてさらに表示させてもよい。例えば、表示制御部４３２は、以前に設定された目標範囲のうち、予め指定された割合の中央部分の範囲を推奨される目標範囲として表示させてよい。一例として、パラメータＰａについて以前に設定された目標範囲が５～１５であり、パラメータＰｂについて以前に設定された目標範囲が１０～３０であり、指定割合が９０％である場合には、表示制御部４３２は、パラメータＰａについて推奨される目標範囲を６～１４、パラメータＰｂについて推奨される目標範囲を１２～２８としてよい。

表示制御部４３２は、目標範囲の設定対象の各パラメータを座標軸とする座標空間に、以前に設定された目標範囲を表示させてよい。また、表示制御部４３２は、推奨される目標範囲を座標空間にさらに表示させてよい。以前に設定された目標範囲が座標空間に表示される場合には、第２学習処理部４１３は、入力部４１１により座標空間内で範囲指定が行われることに応じて、その指定範囲を目標範囲として取得してよい。

ステップＳ１０３において、第２学習処理部４１３は、目標設定データを用いて報酬関数を決定する。第２学習処理部４１３は、操業モデル４０１により操業された設備２に関する状態が、目標設定データの内容に応じた状態に近づく場合に報酬値が高くなるように報酬関数を決定してよい。また、第２学習処理部４１３は、操業モデル４０１により操業された設備２に関する状態パラメータが、目標設定データの内容を満たす場合に報酬値が高くなるように報酬関数を決定してよい。

ステップＳ１０５において、パラメータ取得部４０３は、設備２に関する状態パラメータを取得する。例えば、パラメータ取得部４０３は、設備２またはシミュレータ４３１から状態パラメータを取得してよい。

ステップＳ１０７において、第２学習処理部４１３は、行動を決定し、決定した行動に応じた制御パラメータを決定する。例えば、第２学習処理部４１３は、ランダムに行動を決定する。なお、上述の説明では、第２学習処理部４１３がランダムに行動を決定する場合を一例として示したが、これに限定されるものではない。第２学習処理部４１３が行動を決定するにあたって、例えば、ＦＫＤＰＰ（ＦａｃｔｏｒｉａｌＫｅｒｎｅｌＤｙｎａｍｉｃＰｏｌｉｃｙＰｒｏｇｒａｍｍｉｎｇ）等の既知のＡＩアルゴリズムが用いられてもよい。このようなカーネル法を用いる場合、第２学習処理部４１３は、状態データから状態ｓのベクトルを生成する。次に、第２学習処理部４１３は、状態ｓと、取り得る全ての行動ａとの組み合わせを、例えば図３に示されるような行動決定テーブルとして生成する。そして、第２学習処理部４１３は、行動決定テーブルを、例えば図２に示されるような操業モデル４０１へ入力する。これに応じて、行動決定テーブルの各行と、操業モデル４０１のうちのウエイト列を除いた各サンプルデータとの間でカーネル計算が行われ、各サンプルデータとの間の距離がそれぞれ算出される。そして、各サンプルデータについて算出した距離にそれぞれのウエイト列の値を乗算したものが順次足し合わせられて、各行動における報酬期待値が計算される。操業モデル４０１は、このようにして計算された報酬期待値が最も高くなる行動を選択する。第２学習処理部４１３は、例えばこのようにして、更新中の操業モデルを用いて報酬期待値が最も高いと判断された行動を選択することにより行動を決定してもよい。学習時においては、第２学習処理部４１３は、ランダムに行動を決定するか、操業モデル４０１を用いて行動を決定するかを適宜選択しながら行動を決定すればよい。第２学習処理部４１３は、決定した行動に応じた制御パラメータを操業部４０２へ供給する。

ステップＳ１０９において、操業部４０２は、供給された制御パラメータに応じて設備２を操業する。操業部４０２は、供給された制御パラメータに応じてシミュレータ４３１にシミュレーションを行わせてもよい。

ステップＳ１１１において、パラメータ取得部４０３は、設備２に関する状態パラメータを取得する。これにより、決定された制御パラメータにより設備２が操業されたことに応じて変化した後の状態パラメータが取得される。なお、ステップＳ１０９においてシミュレーションが行われた場合には、パラメータ取得部４０３は、状態パラメータをシミュレータ４３１から取得してよい。

ステップＳ１１３において、第２学習処理部４１３は、取得されたパラメータに基づいて報酬値を算出する。第２学習処理部４１３は、ステップＳ１０３で決定した報酬関数を用いて報酬値を算出してよい。

ステップＳ１１５において、第２学習処理部４１３は、制御パラメータの決定に応じたパラメータの取得処理が、指定されたステップ回数を超えたかどうか判定する。なお、このようなステップ回数は、予めオペレータにより指定されたものであってもよいし、学習対象期間（例えば１０日間等）を基に定められたものであってもよい。上述の処理が指定されたステップ回数を超えていないと判定された場合（ステップＳ１１５；Ｎｏ）、第２学習処理部４１３は、処理をステップＳ１０７に戻してフローを継続する。これにより、制御パラメータの決定に応じた状態パラメータの取得処理が指定されたステップ回数だけ実行される。

ステップＳ１１５において、上述の処理が指定されたステップ回数を超えたと判定された場合（ステップＳ１１５；Ｙｅｓ）、第２学習処理部４１３は、処理をステップＳ１１７へ進める。ステップＳ１１７において、第２学習処理部４１３は、操業モデル４０１を更新する。例えば、第２学習処理部４１３は、図２に示される操業モデルにおけるウエイト列の値を上書きするほか、これまでに保存されていない新たなサンプルデータを操業モデル４０１に追加する。

ステップＳ１１９において、第２学習処理部４１３は、操業モデル４０１の更新処理が、指定された繰り返し回数を超えたかどうか判定する。なお、このような繰り返し回数は、予めオペレータにより指定されたものであってもよいし、操業モデル４０１の妥当性に応じて定められたものであってもよい。上述の処理が指定された繰り返し回数を超えていないと判定された場合（ステップＳ１１９；Ｎｏ）、第２学習処理部４１３は、処理をステップＳ１０５へ戻してフローを継続する。

ステップＳ１１９において、上述の処理が指定された繰り返し回数を超えたと判定された場合（ステップＳ１１９；Ｙｅｓ）、第２学習処理部４１３は、フローを終了する。第２学習処理部４１３は、例えばこのようにして、設備２に関する状態パラメータに応じた制御パラメータを出力する操業モデル４０１を生成することができる。

［３．２．操業モデル４０１の他の学習動作］
図５は、操業モデル４０１の他の学習動作を示す。目標設定モデル４１４の学習処理が完了している場合には、装置１は、ステップＳ１２１～Ｓ１２３，Ｓ１０３～Ｓ１１９の処理により操業モデル４０１を生成してもよい。

ステップＳ１２１において、第１供給部４１５は、新たに入力される操業計画を取得する。第１供給部４１５は、入力部４１１に新たに入力される操業計画を取得してよい。

ステップＳ１２３において、第１供給部４１５は、取得した操業計画を目標設定モデル４１４に供給する。これにより、新たに操業計画が入力されることに応じて、当該操業計画が目標設定モデル４１４に供給される。

ステップＳ１２５において、第２供給部４１７は、目標設定モデルからの出力データ（本実施形態では一例として、パラメータの識別情報および目標範囲）を取得し、当該出力データに応じた目標設定データを取得する。第２供給部４１７は、出力データをそのまま目標設定データとして取得してよい。

これに代えて、第２供給部４１７は、取得した出力データの内容を、推奨される目標設定データとして表示制御部４３２に表示させ、表示内容に基づいてオペレータにより入力される目標設定データを取得してもよい。一例として、或るパラメータについて目標範囲を１～１０とする出力データの内容が表示され、オペレータが当該パラメータの目標範囲を２～９と入力した場合には、第２供給部４１７は、当該パラメータについての目標範囲を２～９とする目標設定データを取得してよい。

以降、上述のステップＳ１０３～Ｓ１１９と同様にして、操業モデル４０１の学習動作が行われてよい。

［３．３．目標設定モデル４１４の学習動作］
図６は、目標設定モデル４１４の学習動作を示す。装置１は、ステップＳ１３１～Ｓ１３３の処理により目標設定モデル４１４を生成してよい。

ステップＳ１３１において、第１取得部４２１は、設備２の操業計画と、操業モデル４０１の学習に用いられた目標設定データのうちの少なくともパラメータの識別情報と、を取得する。本実施形態では一例として、第１取得部４２１は、操業モデル４０１の学習に用いられた目標設定データのうち少なくともパラメータの識別情報と、当該目標設定データと対応付けて入力部４１１により入力された操業計画とを取得してよい。また、第１取得部４２１は、目標設定データのうちのパラメータの識別情報および目標範囲の両方を取得してよい。第１取得部４２１は、目標設定データにおけるパラメータの識別情報や、操業計画などを記憶部４１２から取得してよい。

ステップＳ１３３において、第１学習処理部４２２は、第１取得部４２１が取得したパラメータの識別情報および操業計画を含む学習データを用いて目標設定モデル４１４の学習処理を行う。第１学習処理部４２２は、ディープラーニングなどの教師あり学習によって目標設定モデル４１４の学習処理を行ってよく、目標設定モデル４１４からの出力データの内容が、操業モデル４０１の学習に用いられた目標設定データの内容に近似するように、目標設定モデル４１４の学習処理を行ってよい。また、本実施形態では一例として、第１学習処理部４２２は、目標設定モデル４１４に対し、操業計画が入力されることに応じて、当該操業計画が達成されるために操業モデル４０１の学習に用いられるべき目標設定データの内容を出力するように学習処理を行ってよい。

［３．４．操業モデル４０１の評価動作］
図７は、操業モデル４０１の評価動作を示す。装置１は、ステップＳ１４１～Ｓ１７５の処理により、生成された操業モデル４０１を評価してよい。

ステップＳ１４１において、表示制御部４３２は、設備２に関する複数種類のパラメータの何れかが選択パラメータとしてオペレータにより選択されることに応じて、設備２の過去の操業での当該選択パラメータの値を表示させる。例えば、表示制御部４３２は、各選択パラメータを座標軸とする座標空間に、設備２の過去の操業での各選択パラメータの値を表示させてよい。一例として、表示制御部４３２は、設備２の過去の操業での各選択パラメータの値をそれぞれ表示させてもよいし、設備２の過去の操業での各選択パラメータの値の最大値および最小値を表示させることで、各選択パラメータの値の範囲を表示させてもよい。

ステップＳ１４３において、目標範囲取得部４３３は、選択パラメータについて、オペレータにより設定される評価用目標範囲を取得する。目標範囲取得部４３３は、表示制御部４３２によって表示される、各選択パラメータを座標軸とする座標空間内で範囲指定が行われることに応じて、その指定範囲を評価用目標範囲として取得してよい。

ステップＳ１４５において状態パラメータ取得部４０３は、設備２に関する状態パラメータをシミュレータ４３１から取得する。なお、ステップＳ１４５の処理が最初に実行される場合には、設備２の状態は、予め設定された初期状態であってよい。

ステップＳ１４７においてシミュレータ４３１は、人手の操作に応じたシミュレーションを行う。シミュレータ４３１は、人手の操作に応じた制御パラメータに基づいて操業された設備２の状態をシミュレートしてよい。

ステップＳ１４９においてシミュレータ４３１は、シミュレーションの終了が指示されたか否かを判定する。例えば、シミュレータ４３１は、入力部４１１を介してシミュレーションの終了指示が入力されたか否かを判定してよい。ステップＳ１４９においてシミュレーションの終了が指示されていないと判定した場合（ステップＳ１４９；Ｎｏ）には、上述のステップＳ１４５に処理が移行してよい。ステップＳ１４９においてシミュレーションの終了が指示されたと判定した場合（ステップＳ１４９；Ｙｅｓ）には、ステップＳ１５１に処理が移行してよい。

ステップＳ１５１において評価値取得部４３４は、設備２を人手の操作により操業した結果に応じた基準評価値を取得する。本実施形態では一例として、基準評価値は、シミュレータ４３１に人手の操作を入力した結果に基づいて算出されてよい。

基準評価値は、人手の操作に応じた制御パラメータによって操業された設備２に関するパラメータが評価用目標範囲に収まるか否かに基づいて算出されてよい。設備２に関する複数のパラメータのそれぞれについて評価用目標範囲が設定される場合には、基準評価値は、評価用目標範囲が設定されたパラメータ数（ａ）のうち、対応する目標範囲内に収まるパラメータ数（ｂ）の割合（つまりｂ／ａ）に基づいて算出されてよい。なお、基準評価値は、シミュレータ４３１により算出されてもよいし、操業された設備２に関するパラメータをシミュレータ４３１から取得した評価値取得部４３４によって算出されてもよい。

ステップＳ１５３においてシミュレータ４３１は人手の操作に応じたシミュレーションを終了する。シミュレーションの終了により、シミュレートされた設備２の状態は初期状態にリセットされてよい。

ステップＳ１６１において状態パラメータ取得部４０３は、設備２に関する状態パラメータをシミュレータ４３１から取得する。なお、ステップＳ１６１の処理が最初に実行される場合には、設備２の状態は、予め設定された初期状態であってよい。

ステップＳ１６３においてパラメータ取得部４０３は、取得した状態パラメータを操業モデル４０１に供給する。これにより、操業モデル４０１から制御パラメータの推奨値が出力される。

ステップＳ１６５において操業部４０２は、操業モデル４０１から出力される制御パラメータの推奨値を取得する。

ステップＳ１６７においてシミュレータ４３１は、操業モデル４０１からの制御パラメータの推奨値に応じたシミュレーションを行う。シミュレータ４３１は、制御パラメータの推奨値に基づいて操業された設備２の状態をシミュレートしてよい。

ステップＳ１６９においてシミュレータ４３１は、シミュレーションの終了が指示されたか否かを判定する。ステップＳ１６９においてシミュレーションの終了が指示されていないと判定した場合（ステップＳ１６９；Ｎｏ）には、上述のステップＳ１６１に処理が移行してよい。ステップＳ１６９においてシミュレーションの終了が指示されたと判定した場合（ステップＳ１６９；Ｙｅｓ）には、ステップＳ１７１に処理が移行してよい。

ステップＳ１７１において評価値取得部４３４は、設備２を制御パラメータの推奨値により操業した結果に応じたモデル評価値を取得する。本実施形態では一例として、モデル評価値は、操業部４０２により取得された推奨値を設備２のシミュレータ４３１に入力した結果に基づいて算出されてよい。モデル評価値は、基準評価値と同様にして、制御パラメータの推奨値によって操業された設備２に関するパラメータが評価用目標範囲に収まるか否かに基づいて算出されてよい。

ステップＳ１７３においてシミュレータ４３１は制御パラメータの推奨値に応じたシミュレーションを終了する。シミュレーションの終了により、シミュレートされた設備２の状態は初期状態にリセットされてよい。

ステップＳ１７５において評価部４３５は、モデル評価値、および、基準評価値に基づいて操業モデル４０１を評価する。本実施形態では一例として、評価部４３５は、モデル評価値が基準評価値よりも大きい場合に、操業モデル４０１が良好である旨の評価を行ってよい。

以上の動作によれば、設備２のシミュレータ４３１に人手の操作を入力した結果に基づいて基準評価値が算出されるので、実際に設備２を操業することなく速やかに基準評価値を得ることができる。

また、操業モデル４０１から取得された制御パラメータの推奨値を設備２のシミュレータ４３１に入力した結果に基づいてモデル評価値が算出されるので、実際に設備２を操業することなく速やかにモデル評価値を得ることができる。

また、基準評価値およびモデル評価値がそれぞれシミュレーションの結果に基づいて算出されるので、人手の操作により設備２を操業する場合と、操業モデル４０１を用いて設備２を操業する場合とで、操業前の設備２を同じ状態に揃えることができる。従って、操業モデル４０１を用いることによる操業結果の良否を精度良く判断することができる。

また、評価用目標範囲を設定する場合に、オペレータにより選択された各選択パラメータを座標軸とする座標空間に、設備２の過去の操業での各選択パラメータの値が表示されるので、選択パラメータの過去の値や、その範囲の把握を容易化し、評価用目標範囲の設定を容易化することができる。

［３．５．設備２の操業動作］
図８は、設備２の操業動作を示す。装置１は、ステップＳ１８１～Ｓ１９１の処理により設備２を操業してよい。

ステップＳ１８１において状態パラメータ取得部４０３は、設備２に関する状態パラメータを取得する。ステップＳ１８３においてパラメータ取得部４０３は、取得した状態パラメータを操業モデル４０１に供給する。これにより、操業モデル４０１から制御パラメータの推奨値が出力される。ステップＳ１８５において操業部４０２は、操業モデル４０１から出力される制御パラメータの推奨値を取得する。ステップＳ１８７において操業部４０２は、操業モデル４０１からの制御パラメータの推奨値に応じて設備２を操業する。

ステップＳ１８９において操業部４０２は、操業の終了が指示されたか否かを判定する。ステップＳ１８９において操業の終了が指示されていないと判定した場合（ステップＳ１８９；Ｎｏ）には、上述のステップＳ１８１に処理が移行してよい。ステップＳ１８９において操業の終了が指示されたと判定した場合（ステップＳ１８９；Ｙｅｓ）には、ステップＳ１９１に処理が移行し、操業部４０２は設備２の操業を終了する。

［４．目標設定モデル４１４の変形例（１）］
なお、上記の実施形態においては、目標設定モデル４１４には操業計画と、操業モデル４０１の学習に用いた目標設定データにおけるパラメータの識別情報および目標範囲を含む学習データとを用いて学習処理が行われ、学習処理が行われた目標設定モデル４１４は操業計画の入力に応じて、操業モデル４０１の学習に用いるべき目標設定データのうち、パラメータの識別情報および目標範囲を出力することとして説明した。しかしながら、目標設定モデル４１４についての学習データ、入力データ、および、出力データの内容の組み合わせはこれに限らない。

例えば、目標設定モデル４１４は、操業計画と、操業モデル４０１の学習に用いた目標設定データにおけるパラメータの識別情報を含む学習データとを用いて学習処理が行われ、操業計画の入力に応じて、操業モデル４０１の学習に用いるべき目標設定データのうち、パラメータの識別情報のみを出力し、目標範囲を出力しなくてもよい。学習データには、操業モデルの学習に用いた目標設定データにおけるパラメータの識別情報および目標範囲の両方が含まれてもよい。目標設定モデル４１４は、単一のパラメータの識別情報を出力してもよいし、複数のパラメータの識別情報を出力してもよい。パラメータの識別情報のみが目標設定モデル４１４から出力される場合には、第２供給部４１７は、出力された各パラメータの識別情報を表示制御部４３２に表示させて、オペレータにより入力される目標範囲をパラメータの識別情報毎に取得し、これらの識別情報および目標範囲を示す目標設定データを生成して、第２学習処理部４１３に供給してよい。

また、目標設定モデル４１４は、操業計画と、操業モデル４０１の学習に用いた目標設定データにおけるパラメータの識別情報および目標範囲を含む学習データとを用いて学習処理が行われ、操業計画と、目標範囲の設定対象とするべきパラメータの識別情報との入力に応じて、操業モデル４０１の学習に用いるべき目標設定データのうち、当該パラメータについての目標範囲のみを出力し、パラメータの識別情報を出力しなくてもよい。この場合には、目標範囲の設定対象とするべき単一のパラメータの識別情報が入力部４１１を介してオペレータから目標設定モデル４１４に入力されて、目標設定モデル４１４から当該単一のパラメータの目標範囲が出力されてよい。これに代えて、目標範囲の設定対象とするべき複数のパラメータの識別情報が入力部４１１を介してオペレータから目標設定モデル４１４に入力されて、目標設定モデル４１４から各パラメータの目標範囲が出力されてもよい。第２供給部４１７は、目標設定モデル４１４に入力された各パラメータの識別情報と、目標設定モデル４１４から出力された各パラメータの目標範囲とを示す目標設定データを生成して、第２学習処理部４１３に供給してよい。

［５．目標設定モデル４１４の変形例（２）］
また、上記の実施形態においては、目標設定モデル４１４を単一のモデルとして説明したが、機能の異なる複数のモデルを有してもよい。

図９は、本変形例に係る目標設定モデル４１４Ａを示す。目標設定モデル４１４Ａは、少なくとも１つのパラメータ設定モデル４１４１と、少なくとも１つの目標範囲設定モデル４１４２とを有してよい。本実施形態においては一例として、目標設定モデル４１４Ａは、２つのパラメータ設定モデル４１４１ａ，４１４１ｂと、４つの目標範囲設定モデル４１４２ａ～４１４２ｄとを有する。各パラメータ設定モデル４１４１は、操業計画が入力されることに応じて、目標範囲の設定対象とされるべきパラメータの識別情報を出力する。各目標範囲設定モデル４１４２は、操業計画と、目標範囲の設定対象とされるべきパラメータの識別情報とが入力されることに応じて、当該パラメータに対して設定されるべき目標範囲を出力する。

このうち、パラメータ設定モデル４１４１ａは、操業計画が入力されることに応じて、目標範囲の設定対象とされるべきパラメータ（パラメータＰａとも称する）の識別情報を出力してよい。本実施形態においては一例として、パラメータ設定モデル４１４１ａは、第１供給部４１５から操業計画が入力されることに応じて、当該操業計画と、パラメータＰａの識別情報とを目標範囲設定モデル４１４２ａに供給する。

目標範囲設定モデル４１４２ａは、操業計画と、パラメータの識別情報とが入力されることに応じて、当該パラメータに対して設定されるべき目標範囲の上限値を出力してよい。本実施形態においては一例として、目標範囲設定モデル４１４２ａは、第１供給部４１５により操業計画が入力されたパラメータ設定モデル４１４１ａから操業計画と、パラメータＰａの識別情報とが入力されることに応じて、当該操業計画と、パラメータＰａの識別情報と、パラメータＰａの目標範囲の上限値Ｖ_{ＰａＭＡＸ}とを目標範囲設定モデル４１４２ｂに供給する。なお、操業計画は、パラメータ設定モデル４１４１ａを介して第１供給部４１５から目標範囲設定モデル４１４２ａに入力される代わりに、第１供給部４１５から目標範囲設定モデル４１４２ａに直接入力されてもよい。後述の目標範囲設定モデル４１４２ｂ～４１４２ｄや、パラメータ設定モデル４１４１ｂについても同様である。

目標範囲設定モデル４１４２ｂは、操業計画と、パラメータの識別情報とが入力されることに応じて、当該パラメータに対して設定されるべき目標範囲の下限値を出力してよい。本実施形態においては一例として、目標範囲設定モデル４１４２ｂは、第１供給部４１５により操業計画が入力されたパラメータ設定モデル４１４１ａから操業計画と、パラメータＰａの識別情報と、パラメータＰａの目標範囲の上限値Ｖ_{ＰａＭＡＸ}とが入力されることに応じて、当該操業計画と、パラメータＰａの識別情報と、パラメータＰａの目標範囲の上下限値Ｖ_{ＰａＭＡＸ}，Ｖ_{ＰａＭＩＮ}とをパラメータ設定モデル４１４１ｂに供給する。

パラメータ設定モデル４１４１ｂは、操業計画と、既に目標範囲の設定対象とされたパラメータＰａの識別情報とが入力されることに応じて、目標範囲の設定対象とされるべき他のパラメータ（パラメータＰｂとも称する）の識別情報を出力してよい。本実施形態においては一例として、パラメータ設定モデル４１４１ｂは、目標範囲設定モデル４１４２ｂから操業計画と、パラメータＰａの識別情報および目標範囲の上下限値Ｖ_{ＰａＭＡＸ}，Ｖ_{ＰａＭＩＮ}とが入力されることに応じて、当該操業計画と、パラメータＰａの識別情報および上下限値Ｖ_{ＰａＭＡＸ}，Ｖ_{ＰａＭＩＮ}と、パラメータＰａとは異なるパラメータＰｂの識別情報とを目標範囲設定モデル４１４２ｃに供給する。

目標範囲設定モデル４１４２ｃは、操業計画と、パラメータの識別情報とが入力されることに応じて、当該パラメータに対して設定されるべき目標範囲の上限値を出力してよい。本実施形態においては一例として、目標範囲設定モデル４１４２ｃは、パラメータ設定モデル４１４１ｂから操業計画と、パラメータＰａの識別情報および目標範囲の上下限値Ｖ_{ＰａＭＡＸ}，Ｖ_{ＰａＭＩＮ}と、パラメータＰｂの識別情報とが供給されることに応じて、当該操業計画と、パラメータＰａの識別情報と、パラメータＰａの目標範囲の上下限値Ｖ_{ＰａＭＡＸ}，Ｖ_{ＰａＭＩＮ}と、パラメータＰｂの識別情報と、パラメータＰｂの目標範囲の上限値Ｖ_{ＰｂＭＡＸ}とを目標範囲設定モデル４１４２ｄに供給する。

目標範囲設定モデル４１４２ｄは、操業計画と、パラメータの識別情報とが入力されることに応じて、当該パラメータに対して設定されるべき目標範囲の下限値を出力してよい。本実施形態においては一例として、目標範囲設定モデル４１４２ｄは、目標範囲設定モデル４１４２ｃから操業計画と、パラメータＰａの識別情報および目標範囲の上下限値Ｖ_{ＰａＭＡＸ}，Ｖ_{ＰａＭＩＮ}と、パラメータＰｂの識別情報と、パラメータＰｂの目標範囲の上限値Ｖ_{ＰｂＭＡＸ}とが供給されることに応じて、当該操業計画と、パラメータＰａの識別情報と、パラメータＰａの目標範囲の上下限値Ｖ_{ＰａＭＡＸ}，Ｖ_{ＰａＭＩＮ}と、パラメータＰｂの識別情報と、パラメータＰｂの目標範囲の上下限値Ｖ_{ＰｂＭＡＸ}，Ｖ_{ＰｂＭＩＮ}とを出力する。

以上の目標設定モデル４１４Ａによれば、パラメータ設定モデル４１４１に操業計画が入力されることに応じて、目標範囲の設定対象とされるべきパラメータの識別情報が出力される。従って、目標範囲が設定されるパラメータを、操業モデル４０１の学習に用いられた目標設定データのパラメータに合わせることができる。

また、パラメータ設定モデル４１４１ｂに操業計画と、既に目標範囲の設定対象とされたパラメータＰａの識別情報とが入力されることに応じて、目標範囲の設定対象とされるべきパラメータＰｂの識別情報が出力される。従って、目標範囲が設定されるパラメータＰｂを、操業モデル４０１の学習においてパラメータＰａとともに目標設定データに用いられたパラメータに合わせることができる。

また、パラメータ設定モデル４１４１ｂに操業計画と、既に目標範囲の設定対象とされたパラメータＰａの識別情報および目標範囲の上下限値Ｖ_{ＰａＭＡＸ}，Ｖ_{ＰａＭＩＮ}とが入力されることに応じて、目標範囲の設定対象とされるべきパラメータＰｂの識別情報が出力される。従って、目標範囲が設定されるパラメータＰｂを、操業モデル４０１の学習においてパラメータＰａの識別情報および上下限値Ｖ_{ＰａＭＡＸ}，Ｖ_{ＰａＭＩＮ}とともに目標設定データに用いられたパラメータに合わせることができる。

また、目標範囲設定モデル４１４２に操業計画と、目標範囲の設定対象とされるべきパラメータＰａ，Ｐｂの識別情報とが入力されることに応じて、当該パラメータＰａ，Ｐｂに対して設定されるべき目標範囲が出力される。従って、パラメータＰａ，Ｐｂに対して設定されるべき目標範囲を、操業モデル４０１の学習に用いられた目標設定データの目標範囲に合わせることができる。

また、パラメータ設定モデル４１４１ａに対して操業計画が入力されることに応じて、目標範囲の設定対象とされるべきパラメータＰａの識別情報がパラメータ設定モデル４１４１ａから出力され、目標範囲設定モデル４１４２ａに対して操業計画が入力され、かつ、パラメータ設定モデル４１４１からパラメータＰａの識別情報が入力されることに応じて、当該パラメータＰａに対して設定されるべき目標範囲Ｖ_{ＰａＭＡＸ}，Ｖ_{ＰａＭＩＮ}が目標範囲設定モデル４１４２ａから出力される。従って、目標設定データのパラメータと、目標範囲とを順次、自動的に取得することができる。

なお、以上の目標設定モデル４１４Ａのパラメータ設定モデル４１４１ａは、第１取得部４２１が取得したパラメータの識別情報と、操業計画とを含む学習データを用いて第１学習処理部４２２により学習処理が行われてよい。これにより、パラメータ設定モデル４１４１ａを学習するための学習データではパラメータの目標範囲を省くことができるため、学習処理を容易化することができる。

また、パラメータ設定モデル４１４１ｂと、目標範囲設定モデル４１４２ａ～４１４２ｄとは、第１取得部４２１が取得したパラメータの識別情報および目標範囲と、操業計画とを含む学習データを用いて第１学習処理部４２２により学習処理が行われてよい。これにより、モデルからの出力データの内容を、操業計画が達成されるために操業モデル４０１の学習に用いられた目標設定データの内容に近似させることができる。

［６．その他の変形例］
なお、上記の実施形態においては、装置４は操業モデル４０１および目標設定モデル４１４を有することとして説明したが、これらの何れかを有しないこととしてもよい。装置４は、操業モデル４０１および目標設定モデル４１４を有しない場合には、外部接続された記憶装置内の操業モデル４０１および目標設定モデル４１４に対して学習処理を行ってもよいし、外部接続された記憶装置内の操業モデル４０１に対して評価を行ってもよいし、外部接続された記憶装置内の操業モデル４０１を用いて操業を行ってもよい。

また、装置４は、目標設定モデル４１４の学習処理を行うべく第１取得部４２１および第１学習処理部４２２などを有することとして説明したが、これらを有しなくてもよい。この場合には、装置４は、学習済みの目標設定モデル４１４を用いて操業モデル４０１の学習処理を行ってよい。学習済みの目標設定モデル４１４を複数の装置４で共有し、各装置４で別々の操業モデル４０１の学習処理を行ってもよい。

また、装置４は、操業モデル４０１の学習処理を行うべく第２学習処理部４１３等を有することとして説明したが、有しなくてもよい。この場合には、装置４は、操業モデル４０１の学習で用いられた目標設定データ内のパラメータの識別情報などを外部から取得して、目標設定モデル４１４の学習処理を行ってよい。

また、評価値取得部４３４は、シミュレーション結果に応じた基準評価値およびモデル評価値を取得することとして説明したが、設備２を実際に操業した結果に応じた基準評価値およびモデル評価値を取得してもよい。

また、評価値取得部４３４が基準評価値を算出することとして説明したが、固定値として予め装置４内に記憶されていてもよい。

また、本発明の様々な実施形態は、フローチャートおよびブロック図を参照して記載されてよく、ここにおいてブロックは、（１）操作が実行されるプロセスの段階または（２）操作を実行する役割を持つ装置のセクションを表わしてよい。特定の段階およびセクションが、専用回路、コンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、および／またはコンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタルおよび／またはアナログハードウェア回路を含んでよく、集積回路（ＩＣ）および／またはディスクリート回路を含んでよい。プログラマブル回路は、論理ＡＮＤ、論理ＯＲ、論理ＸＯＲ、論理ＮＡＮＤ、論理ＮＯＲ、および他の論理操作、フリップフロップ、レジスタ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブルロジックアレイ（ＰＬＡ）等のようなメモリ要素等を含む、再構成可能なハードウェア回路を含んでよい。

コンピュータ可読媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読媒体は、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読媒体のより具体的な例としては、フロッピー（登録商標）ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、コンパクトディスクリードオンリメモリ（ＣＤ-ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（ＲＴＭ）ディスク、メモリスティック、集積回路カード等が含まれてよい。

コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ（登録商標）、ＪＡＶＡ（登録商標）、Ｃ＋＋等のようなオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または同様のプログラミング言語のような従来の手続型プログラミング言語を含む、１または複数のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードのいずれかを含んでよい。

コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサまたはプログラマブル回路に対し、ローカルにまたはローカルエリアネットワーク（ＬＡＮ）、インターネット等のようなワイドエリアネットワーク（ＷＡＮ）を介して提供され、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく、コンピュータ可読命令を実行してよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。

図１０は、本発明の複数の態様が全体的または部分的に具現化されてよいコンピュータ２２００の例を示す。コンピュータ２２００にインストールされたプログラムは、コンピュータ２２００に、本発明の実施形態に係る装置に関連付けられる操作または当該装置の１または複数のセクションとして機能させることができ、または当該操作または当該１または複数のセクションを実行させることができ、および／またはコンピュータ２２００に、本発明の実施形態に係るプロセスまたは当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ２２００に、本明細書に記載のフローチャートおよびブロック図のブロックのうちのいくつかまたはすべてに関連付けられた特定の操作を実行させるべく、ＣＰＵ２２１２によって実行されてよい。

本実施形態によるコンピュータ２２００は、ＣＰＵ２２１２、ＲＡＭ２２１４、グラフィックコントローラ２２１６、およびディスプレイデバイス２２１８を含み、それらはホストコントローラ２２１０によって相互に接続されている。コンピュータ２２００はまた、通信インタフェース２２２２、ハードディスクドライブ２２２４、ＤＶＤ－ＲＯＭドライブ２２２６、およびＩＣカードドライブのような入／出力ユニットを含み、それらは入／出力コントローラ２２２０を介してホストコントローラ２２１０に接続されている。コンピュータはまた、ＲＯＭ２２３０およびキーボード２２４２のようなレガシの入／出力ユニットを含み、それらは入／出力チップ２２４０を介して入／出力コントローラ２２２０に接続されている。

ＣＰＵ２２１２は、ＲＯＭ２２３０およびＲＡＭ２２１４内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ２２１６は、ＲＡＭ２２１４内に提供されるフレームバッファ等またはそれ自体の中にＣＰＵ２２１２によって生成されたイメージデータを取得し、イメージデータがディスプレイデバイス２２１８上に表示されるようにする。

通信インタフェース２２２２は、ネットワークを介して他の電子デバイスと通信する。ハードディスクドライブ２２２４は、コンピュータ２２００内のＣＰＵ２２１２によって使用されるプログラムおよびデータを格納する。ＤＶＤ－ＲＯＭドライブ２２２６は、プログラムまたはデータをＤＶＤ－ＲＯＭ２２０１から読み取り、ハードディスクドライブ２２２４にＲＡＭ２２１４を介してプログラムまたはデータを提供する。ＩＣカードドライブは、プログラムおよびデータをＩＣカードから読み取り、および／またはプログラムおよびデータをＩＣカードに書き込む。

ＲＯＭ２２３０はその中に、アクティブ化時にコンピュータ２２００によって実行されるブートプログラム等、および／またはコンピュータ２２００のハードウェアに依存するプログラムを格納する。入／出力チップ２２４０はまた、様々な入／出力ユニットをパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入／出力コントローラ２２２０に接続してよい。

プログラムが、ＤＶＤ－ＲＯＭ２２０１またはＩＣカードのようなコンピュータ可読媒体によって提供される。プログラムは、コンピュータ可読媒体から読み取られ、コンピュータ可読媒体の例でもあるハードディスクドライブ２２２４、ＲＡＭ２２１４、またはＲＯＭ２２３０にインストールされ、ＣＰＵ２２１２によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ２２００に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置または方法が、コンピュータ２２００の使用に従い情報の操作または処理を実現することによって構成されてよい。

例えば、通信がコンピュータ２２００および外部デバイス間で実行される場合、ＣＰＵ２２１２は、ＲＡＭ２２１４にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース２２２２に対し、通信処理を命令してよい。通信インタフェース２２２２は、ＣＰＵ２２１２の制御下、ＲＡＭ２２１４、ハードディスクドライブ２２２４、ＤＶＤ－ＲＯＭ２２０１、またはＩＣカードのような記録媒体内に提供される送信バッファ処理領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、またはネットワークから受信された受信データを記録媒体上に提供される受信バッファ処理領域等に書き込む。

また、ＣＰＵ２２１２は、ハードディスクドライブ２２２４、ＤＶＤ－ＲＯＭドライブ２２２６（ＤＶＤ－ＲＯＭ２２０１）、ＩＣカード等のような外部記録媒体に格納されたファイルまたはデータベースの全部または必要な部分がＲＡＭ２２１４に読み取られるようにし、ＲＡＭ２２１４上のデータに対し様々なタイプの処理を実行してよい。ＣＰＵ２２１２は次に、処理されたデータを外部記録媒体にライトバックする。

様々なタイプのプログラム、データ、テーブル、およびデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。ＣＰＵ２２１２は、ＲＡＭ２２１４から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプの操作、情報処理、条件判断、条件分岐、無条件分岐、情報の検索／置換等を含む、様々なタイプの処理を実行してよく、結果をＲＡＭ２２１４に対しライトバックする。また、ＣＰＵ２２１２は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第２の属性の属性値に関連付けられた第１の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、ＣＰＵ２２１２は、第１の属性の属性値が指定される、条件に一致するエントリを当該複数のエントリの中から検索し、当該エントリ内に格納された第２の属性の属性値を読み取り、それにより予め定められた条件を満たす第１の属性に関連付けられた第２の属性の属性値を取得してよい。

上で説明したプログラムまたはソフトウェアモジュールは、コンピュータ２２００上またはコンピュータ２２００近傍のコンピュータ可読媒体に格納されてよい。また、専用通信ネットワークまたはインターネットに接続されたサーバーシステム内に提供されるハードディスクまたはＲＡＭのような記録媒体が、コンピュータ可読媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ２２００に提供する。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。

１システム
２設備
４装置
４０１操業モデル
４０２操業部
４０３パラメータ取得部
４１１入力部
４１２記憶部
４１３第２学習処理部
４１４目標設定モデル
４１５第１供給部
４１６第２取得部
４１７第２供給部
４２１第１取得部
４２２第１学習処理部
４３１シミュレータ
４３２表示制御部
４３３目標範囲取得部
４３４評価値取得部
４３５評価部
２２００コンピュータ
２２０１ＤＶＤ－ＲＯＭ
２２１０ホストコントローラ
２２１２ＣＰＵ
２２１４ＲＡＭ
２２１６グラフィックコントローラ
２２１８ディスプレイデバイス
２２２０入／出力コントローラ
２２２２通信インタフェース
２２２４ハードディスクドライブ
２２２６ＤＶＤ－ＲＯＭドライブ
２２３０ＲＯＭ
２２４０入／出力チップ
２２４２キーボード
４１４１パラメータ設定モデル
４１４２目標範囲設定モデル

Claims

設備に関する状態パラメータの値が入力されることに応じて、前記設備の制御パラメータの推奨値を出力する操業モデルに対し、状態パラメータの値を供給する供給部と、
前記供給部が前記操業モデルに状態パラメータの値を供給することに応じて当該操業モデルから出力される制御パラメータの推奨値を取得する制御パラメータ取得部と、
前記制御パラメータ取得部により取得された前記推奨値により前記設備を操業した結果に応じたモデル評価値を取得する取得部と、
前記モデル評価値、および、前記設備を人手の操作により操業した結果に応じた基準評価値に基づいて前記操業モデルを評価する評価部と、
を備える装置。
前記基準評価値は、前記設備のシミュレータに人手の操作を入力した結果に基づいて算出される、請求項１に記載の装置。
前記モデル評価値は、前記制御パラメータ取得部により取得された前記推奨値を前記設備のシミュレータに入力した結果に基づいて算出される、請求項１または２に記載の装置。
前記モデル評価値は、前記推奨値により操業された前記設備に関するパラメータが目標範囲内に収まるか否かに基づいて算出され、
前記基準評価値は、人手の操作により操業された前記設備に関するパラメータが前記目標範囲内に収まるか否かに基づいて算出される、請求項１から３の何れか一項に記載の装置。
前記設備に関する複数種類のパラメータのうち、オペレータにより選択される選択パラメータについてオペレータにより設定される前記目標範囲を取得する目標範囲取得部をさらに備える、請求項４に記載の装置。
前記複数種類のパラメータから前記選択パラメータが選択されることに応じて、前記設備の過去の操業での当該選択パラメータの値を表示させる表示制御部をさらに備える、請求項５に記載の装置。
前記表示制御部は、各選択パラメータを座標軸とする座標空間に、前記設備の過去の操業での各選択パラメータの値を表示させる、請求項６に記載の装置。
前記設備は、物の製造を行う設備であり、
前記設備に関するパラメータは、前記物の品質を示す指標値または前記物の生産量の少なくとも１つである、請求項４から７の何れか一項に記載の装置。
状態パラメータの値、および、制御パラメータの値を含む学習データを用いて前記操業モデルの学習処理を実行する学習処理部をさらに備える、請求項１から８の何れか一項に記載の装置。
前記学習処理部は、前記学習データと、予め設定された報酬関数により定まる報酬値とを用いて前記操業モデルの学習処理を実行する、請求項９に記載の装置。
設備に関する状態を示す状態パラメータの値が入力されることに応じて、前記設備の制御パラメータの推奨値を出力する操業モデルに対し、状態パラメータの値を供給する供給段階と、
前記供給段階により前記操業モデルに状態パラメータの値を供給することに応じて当該操業モデルから出力される制御パラメータの推奨値を取得する制御パラメータ取得段階と、
前記制御パラメータ取得段階により取得された前記推奨値により前記設備を操業した結果に応じたモデル評価値を取得する取得段階と、
前記モデル評価値、および、前記設備を人手の操作により操業した結果に応じた基準評価値に基づいて前記操業モデルを評価する評価段階と、
を備える方法。
コンピュータを、
設備に関する状態パラメータの値が入力されることに応じて、前記設備の制御パラメータの推奨値を出力する操業モデルに対し、状態パラメータの値を供給する供給部と、
前記供給部が前記操業モデルに状態パラメータの値を供給することに応じて当該操業モデルから出力される制御パラメータの推奨値を取得する制御パラメータ取得部と、
前記制御パラメータ取得部により取得された前記推奨値により前記設備を操業した結果に応じたモデル評価値を取得する取得部と、
前記モデル評価値、および、前記設備を人手の操作により操業した結果に応じた基準評価値に基づいて前記操業モデルを評価する評価部
として機能させるプログラム。