JP2020057238A

JP2020057238A - 制御装置および制御方法

Info

Publication number: JP2020057238A
Application number: JP2018187912A
Authority: JP
Inventors: 服部　哲; Satoru Hattori; 哲服部; 敬規高田; Takanori Takada; 佑樹田内; Yuki Tanaka
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-10-03
Filing date: 2018-10-03
Publication date: 2020-04-09
Anticipated expiration: 2038-10-03
Also published as: CN110976523B; DE102019214640A1; JP6952018B2; CN110976523A

Abstract

【課題】制御結果の適切な良否判定に基づく制御を実行可能にする技術を提供する。【解決手段】制御対象を制御する制御装置は、与えられた制御ルールに従って前記制御対象へ制御出力を与える制御実行装置と、指定された評価関数を用いて前記制御対象に対して与えられた制御出力を評価し、その評価結果を利用して学習データを作成し、該学習データを学習することにより前記制御ルールを構築し、該制御ルールを前記制御実行装置に与える制御方法学習装置と、複数の評価関数を予め保持しており、前記制御対象への制御状態に基づいて、前記複数の評価関数のうちいずれかを選択し、前記選択した評価関数を前記制御方法学習装置に指定する評価関数設定部と、を有する。【選択図】図６

Description

本発明は、ニューラルネット等の人工知能を用いた実時間のフィードバック制御を行う技術に関する。

従来から、各種のプラントにおいてはその制御により所望の制御結果を得るために各種制御理論に基づいたプラント制御が実施されている。

プラントの一例として例えば圧延機制御においては、制御の一例として板の波打ち状態を制御する形状制御を対象とした制御理論として、ファジィ制御やニューロ・ファジィ制御が適用されてきた。ファジィ制御は、クーラントを利用した形状制御に、また、ニューロ・ファジィ制御は、センジミア圧延機の形状制御に適用されている。このうちニューロ・ファジィ制御を適用した形状制御は、特許文献１に示されるように、形状検出器で検出された実績形状パターンと目標形状パターンの差と、予め設定された基準形状パターンとの類似割合を求め、その類似割合からこれも予め設定された基準形状パターンに対する制御操作端操作量によって表現された制御ルールにより、操作端に対する制御出力量を求めることにより行われている。以下、従来技術として、ニューロ・ファジィ制御を用いたセンヂミア圧延機の形状制御を用いるものとする。

図１に、特許文献１の図１に記述されたセンヂミア圧延機の形状制御を示す。センヂミア圧延機の形状制御では、ニューロ・ファジィ制御が用いられる。この例では、パターン認識機構５１で、形状検出器５２にて検出した実形状より形状のパターン認識を行い、実形状が予め設定された基準形状パターンのどれに最も近いかを演算する。制御演算機構５３では、図２で示すような予め設定された形状パターンに対する制御操作端操作量で構成される制御ルールを用いて制御を実施する。図２についてより具体的に述べると、パターン認識機構５１では、形状検出器５２にて検出した形状実績と目標形状（εｒｅｆ）との差分（Δε）が、１から８の形状パターン（ε）のどれに最も近いかを演算し、制御演算機構５３では、１から８の制御方法のいずれかを選択し実行する。

ところが特許文献１の手法では、制御ルールの検証のために、圧延中にオペレータに手動操作を行ってもらい制御ルールの検証等行う場合が有るが、予想に反した形状変化を示す場合がある。つまり、上記の様にして決定した制御ルールが現実に則していない場合が発生する。これは、機械的特性の検討不足や圧延機の操業状態や機械条件の変化が原因であるが、予め設定した制御ルールが最も良いルールかどうかを１つ１つ検証するのは、考慮すべき条件が多く困難である。そのため、制御ルールを一度設定してしまうと、不具合が無い限りそのままとしてしまう場合が多い。

操業条件の変化等で、制御ルールが現実に則したものでなくなってくると、制御ルールが固定されているため、ある程度以上の制御精度を出すことは困難となってくる。また、一旦形状制御が動作してしまうと、オペレータは手動操作をしなくなる（制御にとって外乱となってしまう）ため、新たな制御ルールをオペレータの手動介入により見つけていくのも困難である。さらに、新しい規格の圧延材を圧延する場合も制御ルールをその材料にあわせて設定するのは困難である。

以上のように、従来の形状制御においては、予め設定された制御ルールを用いて制御するため、制御ルールを修正するのが困難であるという問題が有った。

この問題を解決するために、特許文献２に示すような、形状制御を行いながら制御ルールをランダムに変化させ、形状が良くなるルールを学習して行くことで、
１）圧延中に形状制御を実施しながら新たな制御ルールを発見していく。
２）新たな制御ルールは、予め予想できるものでは無く、全く予測できなかった制御ルールが最適となる場合も有る事から、ランダムに制御操作端を動作させ、それに対する制御結果を見ながら見つけていく。
ことを実現している。

特許２８０４１６１号公報特許４００３７３３号公報

上記従来技術は、予め代表的な形状を基準形状パターンとして設定し、基準波形パターンに対する制御操作端操作量との関係を示す制御ルールを基に制御を行っている。制御ルールの学習につても、基準波形パターンに対する制御操作端操作量に関するものであり、予め定めている代表的な基準形状パターンはそのまま用いている。そのため、特定の形状パターンにしか反応しない形状制御となってしまう問題がある。

基準形状パターンは、人間が予め対象となる圧延機に関する知識や、形状実績と手動介入操作を蓄積した経験より定めたものであるが、対象となる圧延機および被圧延材で発生する全ての形状を網羅する事は困難である。そのため、基準形状パターンとは異なる形状が発生した場合、形状制御による制御が実施されず、形状偏差が抑制されずに残ってしまい、あるいは似たような基準形状パターンと誤認識し、誤った制御操作を行って、逆に形状を悪化させてしまう場合も有る。

そのため、従来の形状制御においては、予め設定された基準形状パターンとそれに対する制御ルールを用いて制御ルールの学習をし、制御を実施するため、制御精度の向上に限界があるという問題が有った。

それを解決するために、制御対象プラントに対して、制御対象プラントの実績データの組合せのパターンを認識して、制御を実施するプラント制御装置であって、制御対象プラントの実績データと制御操作の組合せを学習する制御方法学習装置と、学習した実績データと制御操作の組合せに応じて制御対象プラントの制御を実施する制御実行装置を備え、制御実行装置は、制御対象プラントの実績データと制御操作の定められた組合せに従って制御出力を与える制御ルール実行部と、制御ルール実行部が出力する制御出力の可否を判定するとともに、当該実績データと制御操作が誤りである事を制御方法学習装置に通知する制御出力判定部と、制御出力判定部が、制御出力を制御対象プラントに出力した場合、制御対象プラントの実績データが悪化すると判断した場合は、制御出力を制御対象プラントに出力することを阻止する制御出力抑制部とを備え、制御方法学習装置は、制御実行装置が制御出力を実際に、制御対象プラントに出力した場合に、制御効果が実績データに表れるまでの時間遅れ後に、実績データが当該制御前に比較して良くなったか、悪くなったかについての制御結果の良否を判定する制御結果良否判定部と、制御結果良否判定部における制御結果の良否と、制御出力をもちいて教師データを得る学習データ作成部と、実績データと教師データを学習データとして学習する制御ルール学習部とを備え、制御方法学習装置が学習する事で、制御対象プラントの状態に応じて複数の制御目標に対して別個の実績データと制御操作の組合せを得、得られた実績データと制御操作の組合せを制御ルール実行部における制御対象プラントの実績データと制御操作の定められた組合せとして使用することを特徴とするプラント制御装置、を用いることが考えられる。

このときに、制御結果の良否判定に用いる評価関数が適切であることが非常に重要となる。しかしながら、評価関数を決定する際に制御装置の設計者は、制御対象プラントの操業技術者やオペレータ等に聞き取り調査を実施したり、実際のプラントの動作を確認したりしながら主観的に決定しており、真に適切に設定されているか不明である場合が多い。

一例として圧延機の形状制御について考えてみる。圧延機の形状制御においては、板幅方向の全体において目標形状と実形状が一致するのが理想である。しかし、現実にはそうならない場合が多い。そのため、実際の作業においては、板の特定の領域を重視し、その領域で実形状を目標形状に合致するように制御するのが一般的である。板の形状を評価する評価関数として、板幅方向の各部における形状偏差（＝形状実績−目標形状）に対して、板幅方向の各部に対して重み付けした評価関数が用いられる。

圧延機では、板幅方向の端部（板端部）の形状に対する制御操作端は、それを除く部分（中央部）に対する制御操作端とは別々のものとなっている。しかし、それらは互いに影響しあっている場合が多い。また、板端部は中央部のように両側から拘束されないため、形状偏差が大きくなる場合が多い。板幅方向の板端部に制御を加えると、その影響が中央部におよんで中央部の形状が悪化したり、その逆の場合が発生したりする。このように、板端部と中央部の形状を同時に目標値に合致するように制御することは困難である。多くの場合オペレータは、板端部か中央部かどちらかを優先させて手動制御を実施する。

制御結果の良否判定において適用されている評価関数が、オペレータの考えと異なる評価をするような場合、オペレータは、制御装置による形状制御からの操作を取り消して、自分の考えに従って手動操作を実施することになる。その場合、制御装置による形状制御とオペレータが行う手動操作が競合する状態となる。その結果、オペレータは自身による手動操作にとって邪魔となる制御装置からの形状制御をＯＦＦすることも考えられる。それが度重なると、オペレータは制御装置による形状制御を最初からＯＮしなくなってしまうことも懸念される。

制御結果の良否判定に適用する評価関数を、オペレータの考えと合致する評価を行うものにすれば、制御装置による制御とオペレータの手動操作との競合が低減するだけでなく、更には、オペレータが手動操作を行うことが減り、オペレータの負荷が低減され、形状制御の精度が向上することも期待される。

本発明の目的は、制御結果の適切な良否判定に基づく制御を実行可能にする技術を提供することである。

本開示による制御装置は、制御対象を制御する制御装置であって、与えられた制御ルールに従って前記制御対象へ制御出力を与える制御実行装置と、指定された評価関数を用いて前記制御対象に対して与えられた制御出力を評価し、その評価結果を利用して学習データを作成し、該学習データを学習することにより前記制御ルールを構築し、該制御ルールを前記制御実行装置に与える制御方法学習装置と、複数の評価関数を予め保持しており、前記制御対象への制御状態に基づいて、前記複数の評価関数のうちいずれかを選択し、前記選択した評価関数を前記制御方法学習装置に指定する評価関数設定部と、を有する。

本開示によれば、制御結果の適切な良否判定に基づく制御が実行可能になることが期待される。

特許文献１の図１に記述されたセンヂミア圧延機の形状制御を示す図である。形状パターンに対する制御操作端操作量で構成される制御ルールを示す図である。実施例に係るプラント制御装置の概要を示す図である。実施例に係る制御ルール実行部１０の具体例を示す図である。実施例に係る制御ルール学習部１１の具体例を示す図である。評価関数設定部１７の内部構成を示すブロック図である。センヂミア圧延機の形状制御に用いる場合のニューラルネットワークの構成を示す図である。形状偏差と制御方法について説明するための図である。制御入力データ作成部２の概要を示す図である。制御出力演算部３の概要を示す図である。圧延機の圧延速度の遷移の一例を示す図である。評価関数ＤＢＤＢ５の一例を示す図である。評価関数選択方法学習部１７３の動作概要を説明するための図である。評価関数学習部１７４の動作概要を説明するための図である。評価関数学習部１７４の概要構成を示す図である。制御出力判定部５の概要を説明するための図である。制御良否判定部６の動作概要を説明するための図である。学習データ作成部７の動作概要を説明するための図である。学習データ作成部７における処理段階と処理内容を示す図である。学習データデータベースＤＢ２に保存されたデータ例を示す図である。ニューラルネット管理テーブルＴＢの一例を示す図である。学習データデータベースＤＢ２の一例を示す図である。

まずは、本発明における知見、並びに本発明に至る経緯について圧延機の形状制御を例にして説明をしておく。

まず、上記課題を解決するために以下の３つのことが求められる

（１）基準形状パターンと、それに対する制御操作を予め別々に設定し、制御操作方法を学習していくのではなく、形状パターンと制御操作の組合せを学習し、それを用いて制御操作を実施する

（２）新たな制御ルールは、予め予想できるものでは無く、全く予測できなかった制御ルールが最適となる場合も有る事から、ランダムに制御操作端を動作させ、それに対する制御結果を見ながら見つけていく

（３）制御結果の良否に関し、圧延機の状態に応じて評価関数を選択し、好適な制御ルールの選択を可能とする。

これら３つを実現するためには、形状制御に使用する、形状パターンと制御操作の組合せを変化させながら制御結果が良くなるように制御操作を変更していくのがよい。そのためには、形状パターンとその形状パターンに対して好適な制御操作との組合せをニューラルネットワーク等の人工知能で学習し、人工知能により、圧延機で発生した形状パターンに対する制御操作の出力を変更していくのがよい。

操業中の圧延機に対して形状制御を実施しながら制御操作を変更すると、誤った制御出力が出力され、板の形状が悪化し、板破断等の操業異常が発生する事がある。板破断が発生すると、圧延機で使用するロールの交換に時間を要したり、圧延中の被圧延材が無駄になったりと、ダメージが大きい。そのため、可能な限り誤った制御出力を圧延機に対して出力しないようにする事が必要である。そのため、形状の良否を判定するための評価関数を圧延状態に応じて変更するのがよい。

圧延状態とは、制御対象である圧延機が置かれている圧延に関する状態のことである。制御対象が圧延機に限られなければ、圧延状態を一般化して制御状態と呼ぶことができる。圧延状態は、圧延機に加えられる制御操作、圧延機の状態、圧延機による圧延の状態など様々なパラメータで判別することができる。本実施形態では一例として圧延速度で圧延状態を判別するものとする。

以上のことから本実施形態においては、これを実現するため、ニューラルネットが出力した制御操作の良否を、例えば圧延機の簡易モデル等を用いて検証し、明らかに形状が悪化すると考えられる出力は、圧延機の制御操作端に対して出力しないようにし、形状悪化を防止する。この時、ニューラルネットに関しては、その形状パターンに対する制御操作は誤りであるとして学習を実施する。

制御操作の良否の検証方法自体が誤っている可能性が有るため、ある確率で誤っていると判断されたニューラルネットの制御操作出力についても、圧延機の制御操作端に出力することで、想定外の形状パターンと制御操作の組合せについても学習していく事が可能となる。

以下、本発明の実施例について図面を用いて詳細に説明する。

図３に、実施例に係るプラント制御装置の概要を示す。図３のプラント制御装置は、制御対象プラント１と、制御対象プラント１からの実績データＳｉを入力して図２に例示したような制御ルール（ニューラルネット）に従い定めた制御操作量出力ＳＯを制御対象プラント１に与えて制御する制御実行装置２０と、制御対象プラント１からの実績データＳｉなどを入力して学習を行い、学習した制御ルールを制御実行装置２０における制御ルールに反映させる制御方法学習装置２１と、複数のデータベースＤＢ（ＤＢ１からＤＢ３）、並びにデータベースＤＢの管理テーブルＴＢから構成されている。

制御実行装置２０は、制御入力データ作成部２、制御ルール実行部１０、制御出力演算部３、制御出力抑制部４、制御出力判定部５、および制御操作外乱発生部１６を主たる要素として構成されている。

このうち制御実行装置２０においては、まず制御対象プラント１である圧延機の実績データＳｉより、制御入力データ作成部２を用いて、制御ルール実行部１０の入力データＳ１を作成する。制御ルール実行部１０は、制御対象の実績データＳｉと制御操作端操作指令Ｓ２の関係を表現するニューラルネット（制御ルール）を用いて、制御対象の実績データＳｉから制御操作端操作指令Ｓ２を作成する。制御出力演算部３においては、制御操作端操作指令Ｓ２をもとに、制御操作端への制御操作量Ｓ３を演算する。これにより、制御対象プラント１の実績データＳｉに応じて、ニューラルネットを用いて制御操作量Ｓ３を作成する。

また制御実行装置２０内の制御出力判定部５においては、制御対象プラント１からの実績データＳｉおよび制御出力演算部３からの制御操作量Ｓ３を用いて、制御操作端への制御操作量出力可否データＳ４を決定する。制御出力抑制部４においては、制御操作量出力可否データＳ４に応じて制御操作端への制御操作量Ｓ３の出力可否を決定し、可とされた制御操作量Ｓ３を、制御対象プラント１に与える制御操作量出力ＳＯとして出力する。これにより、異常と判断される制御操作量Ｓ３は、制御対象プラント１に出力されなくなる。なお制御操作外乱発生部１６は、プラント制御装置を検証する目的のために、外乱を生成し、制御対象プラント１に与えるものである。

以上のように構成された制御実行装置２０は、その処理実行のために、さらに後述するように、制御ルールデータベースＤＢ１および出力判定データベースＤＢ３を参照する。制御ルールデータベースＤＢ１は、制御実行装置２０内の制御ルール実行部１０と、後述する制御方法学習装置２１内の制御ルール学習部１１の双方にアクセス可能に接続されている。制御ルール学習部１１における学習結果としての制御ルール（ニューラルネット）が制御ルールデータベースＤＢ１に格納されており、制御ルール実行部１０は制御ルールデータベースＤＢ１に格納された制御ルールを参照する。出力判定データベースＤＢ３は、制御実行装置２０内の制御出力判定部５にアクセス可能に接続されている。

図４は、本実施例に係る制御ルール実行部１０の具体例を示している。制御ルール実行部１０は、制御入力データ作成部２で作成した入力データＳ１を入力して、制御出力演算部３に制御操作端操作指令Ｓ２を与える。制御ルール実行部１０はニューラルネット１０１を備えており、ニューラルネット１０１では基本的には図２に例示したような特許文献１の手法により制御操作端操作指令Ｓ２を定めている。本発明においては、制御ルール実行部１０はさらにニューラルネット選択部１０２を備えており、制御ルールデータベースＤＢ１に格納された制御ルールを参照することで、ニューラルネット１０１における制御ルールとして、最適な制御ルールを選択し、実行せしめる。このように図４の制御ルール実行部１０においては、オペレータ班や制御目的で分けられた複数のニューラルネットから、必要なニューラルネットを選択し、使用している。制御ルールデータベースＤＢ１には、制御対象プラント１からのデータとして、ニューラルネットおよび良否判定基準を選択できるような実績データ（操業班のデータ等）Ｓｉも含むのがよい。なお、ニューラルネットを実行すると制御ルールになるという関係にあることから、本明細書においてはニューラルネットと制御ルールを区別せず、同義の意味で使用している。

図３に戻り、制御方法学習装置２１においては、制御実行装置２０で使用するニューラルネット１０１の学習を実施する。制御実行装置２０が制御対象プラント１に対して、制御操作量出力ＳＯを出力した場合、実際に制御効果が実績データＳｉの変化となって現れるには時間を要する。このため、その時間だけ時間遅れさせたデータを用いて学習を実施する。図３において、Ｚ^−１は、各データに対する適宜の時間遅れ機能を表している。

制御方法学習装置２１は、制御結果良否判定部６、学習データ作成部７、制御ルール学習部１１、評価関数設定部１７、を主たる要素として構成されている。

このうち、制御結果良否判定部６は、制御対象プラント１からの実績データＳｉおよび実績データ前回値Ｓｉ０と、評価関数設定部１７より設定される評価関数とを用いて、実績データＳｉが良くなる方向に変化したか、悪くなる方向に変化したか判定し、制御結果良否データＳ６を出力する。

制御方法学習装置２１内の学習データ作成部７においては、制御実行装置２０にて作成した制御操作端操作指令Ｓ２、制御操作量Ｓ３、制御操作量出力可否データＳ４などの入力データをそれぞれ同じ時間だけ時間遅れさせたデータと、制御結果良否判定部６よりの制御結果良否データＳ６を用いて、ニューラルネットの学習に使用する新規の教師データＳ７ａを作成し、制御ルール学習部１１に与える。なお、教師データＳ７ａは、制御ルール実行部１０が出力する制御操作端操作指令Ｓ２に対応するものであり、学習データ作成部７は、制御結果良否判定部６が与える制御結果良否データＳ６を用いて制御ルール実行部１０が出力する制御操作端操作指令Ｓ２を推定して得たデータを、新規の教師データＳ７ａとして求めたものということができる。

図５は、本実施例に係る制御ルール学習部１１の具体例を示している。制御ルール学習部１１は、入力データ作成部１１４、教師データ作成部１１５、ニューラルネット処理部１１０、ニューラルネット選択部１１３を主たる構成要素として構成されている。また制御ルール学習部１１は、外部からの入力として入力データ作成部２からの入力データＳ１を時間遅れさせたデータＳ８ａを、学習データ作成部７からの新規の教師データＳ７ａを得、また制御ルールデータベースＤＢ１および学習データデータベースＤＢ３に蓄積されたデータを参照する。

制御ルール学習部１１において、入力データＳ１は適宜の時間遅れ補償後に入力データ作成部１１４を介してニューラルネット処理部１１０に取り込まれる。

また制御ルール学習部１１において、学習データ作成部７からの新規の教師データＳ７ａは、教師データ作成部１１５において学習データデータベースＤＢ３に記憶されている過去の教師データＳ７ｂも含めた合計の教師データＳ７ｃとして、ニューラルネット処理部１１０に与えられる。これらの教師データＳ７ａ、Ｓ７ｂは、適宜、学習データデータベースＤＢ３に記憶されて、利用される。

同様に、制御入力データ作成部２からの入力データＳ８ａは、入力データ作成部１１４において学習データデータベースＤＢ３に記憶されている過去の入力データＳ８ｂも含めた合計の入力データＳ８ｃとして、ニューラルネット処理部１１０に与えられる。これらの入力データＳ８ａ、Ｓ８ｂは、適宜、学習データデータベースＤＢ３に記憶されて、利用される。

ニューラルネット処理部１１０は、ニューラルネット１１１とニューラルネット学習制御部１１２により構成されており、ニューラルネット１１１は、入力データ作成装置１１４からの入力データＳ８ｃ、教師データ作成部１１５からの教師データＳ７ｃ、ニューラルネット選択部１１３が選択した制御ルール（ニューラルネット）を取り込み、最終的に決定したニューラルネットを制御ルールデータベースＤＢ１に格納する。

ニューラルネット学習制御部１１２は、入力データ作成装置１１４、教師データ作成部１１５、ニューラルネット選択部１１３に対して、適宜のタイミングでこれらを制御し、ニューラルネット１１１の入力を得、また処理結果を制御ルールデータベースＤＢ１に格納すべく制御している。

ここで、図４の制御実行装置２０におけるニューラルネット１０１と、図５の制御方法学習装置２１におけるニューラルネット１１１は、いずれも同じ概念のニューラルネットである。以下に、それらを利用するうえでの基本概念上の相違について説明する。

まず制御実行装置２０におけるニューラルネット１０１は、予め定められた内容のニューラルネットであり、入力データＳ１を与えたときに対応する出力としての制御操作端操作指令Ｓ２を求めるものであり、いわば一方方向の処理に利用されるニューラルネットである。これに対し、制御方法学習装置２１におけるニューラルネット１１１は、入力データＳ１と制御操作端操作指令Ｓ２についての入力データＳ８ｃ、教師データＳ７ｃを学習データとして設定したときに、この入出力関係を満足するニューラルネットを学習により求めるためのものである。

上記のように構成された制御方法学習装置２１における基本的な処理の考え方は、以下のようである。まず、制御操作量出力可否データＳ４の内容が「可」の場合、制御対象プラント１に制御操作量出力ＳＯを出力し、制御結果良否データＳ６の内容が「良」（実績データＳｉが良くなる方向に変化）の場合、制御ルール実行部１０が出力した制御操作端操作指令Ｓ２は正しいと判断し、ニューラルネットの出力が制御操作端操作指令Ｓ２となるように学習データを作成する。

一方、制御操作量出力可否データＳ４の内容が「否」、または、制御対象プラント１に制御操作量出力ＳＯを出力し、制御結果良否データＳ６の内容が「否」（実績データＳｉが悪くなる方向に変化）の場合、制御ルール実行部１０が出力した制御操作端操作指令Ｓ２は誤っていると判断し、ニューラルネットの出力が出ないように学習データを作成する。このとき、制御出力として、同じ制御操作端に対して＋方向、−方向の２種類の出力が出るようにニューラルネット出力を構成しておき、出力した側の制御操作端操作指令Ｓ２が出力されないように学習データを作成する。

また図５に例示する制御ルール学習部１１においては、ニューラルネット学習制御部１１２によるデータ処理の結果として、以下のように処理している。ここでは、まず制御実行装置２０への入力データＳ１を時間遅れさせたＳ８ｃと、教師データ作成部１１５にて作成した教師データＳ７ｃの組合せである学習データを用いて、制御ルール実行部１０にて用いたニューラルネット１０１の学習を実施する。実際には、制御ルール実行部１０のニューラルネット１０１と同じニューラルネット１１１を制御ルール学習部１１内に備えて、各種条件で運用テストしてその時の応答を学習し、学習の結果としてより良い結果を生じることが確認された制御ルールを得るものである。学習は、複数個の学習データを用いて行わせる必要があるため、過去に作成された学習データを蓄積している学習データデータベースＤＢ２より、過去の学習データを複数個取り出して、学習し処理を実施するとともに、今回の学習データを学習データデータベースＤＢ２に格納する。また、学習したニューラルネットは、制御ルール実行部１０にて利用するために、制御ルールデータベースＤＢ１に格納される。

ニューラルネットの学習は、新しい学習データが作成される毎に、過去の学習データを一緒に用いて学習しても良いし、学習データがある程度（例えば１００個分）蓄積されてから、過去の学習データを一緒に用いて学習しても良い。

また、制御結果良否判定部６においては、評価関数設定部１７から設定される評価関数を用いて、良否判定を実施する。制御結果の良否判定は、使用する評価関数応じて判断結果が異なる。そのため、複数の評価関数に対応したニューラルネットをそれぞれ作成する。同じ入力データについてそれぞれの評価関数によりそれぞれ教師データを作成し、学習する。これにより、１回分の入力データに対して複数の教師データを作成し、それぞれの教師データに対応するニューラルネットの学習に用いる。同時に複数の評価関数対応したニューラルネットを学習していくことが可能である。ここで、複数の評価関数とは、例えば形状制御の場合、板幅方向でどの部分（板端部、センター部、非対称部等）を優先的に制御したいか、複数の制御対象項目（例えば、板厚と張力、圧延荷重等）のいずれを優先的に制御したいか、等のそれぞれのポリシに対して用いる評価関数のことである。

本実施例を適用した場合、制御ルール実行部１０で用いられるニューラルネット１０１が一旦学習されると、新たな制御操作が実施されなくなることが考えられる。そのため、制御操作外乱発生部１６により、適時新たな操作方法をランダムに発生させ、制御操作量Ｓ３に加えて制御操作を実行する事で、新たな制御方法を学習するようにする。

以下、一例として、特許文献１に示すようなセンヂミア圧延機における形状制御を対象に、本プラント制御方法の詳細を説明する。なお形状制御に関しては、下記のような仕様Ａ、Ｂを採用するものとして説明する。

仕様Ａは、評価関数についての仕様であり、板幅方向の優先度の情報を持つものとする。例えば形状制御においては、板幅方向全域にわたって板厚などを目標値に制御する事が、機械特性上困難な場合が多い。そのため、板幅方向で、下記複数のポリシに対応する評価関数Ａ１〜ＡＮ（Ｎは評価関数の設定最大個数）を設ける。

評価関数は、評価が良いほど値が小さくなるように定義する。例えば、制御偏差の２乗平均や、最大値−最小値等である。

ここでは、一例として、以下に例示する６種類のポリシおよび評価関数Ａ１〜Ａ６を用いるものとする。
＜Ａ１：板端部を優先し、板端部の重み付けを重くした評価関数を用いる。＞
＜Ａ２：中央部を優先し、中央部の重み付けを重くした評価関数を用いる。＞
＜Ａ３：板端部の、伸び方向は許容する。＞
＜Ａ４．板端部の、張り方向は許容する。＞
＜Ａ５．板端部がデッドバンド内の場合は許容する。＞
＜Ａ６．最大値−最小値＞

図６は、評価関数設定部１７の内部構成を示すブロック図である。評価関数設定部１７は、評価関数手動設定部１７１、評価関数選択部１７２、評価関数選択方法学習部１７３、および評価関数学習部１７４を有している。評価関数設定部１７は、評価関数ＤＢＤＢ５と連動して、評価関数に関する下記の処理を実行する。

＜処理１７−１：評価関数の設定＞
評価関数手動設定部１７１が評価関数を設定する。これは、操業技術者やオペレータの形状に対する考え方を予め数式化し、設定しておく処理である。
＜処理１７−２：評価関数の選択＞
評価関数選択部１７２が、圧延状態に応じて、制御実行装置２０にて使用する評価関数を選択する。
＜処理１７−３：評価関数の選択方法の学習＞
評価関数選択方法学習部１７３が、圧延状態とオペレータの手動操作実績より、圧延状態に応じた評価関数が選択されるように学習実施する。
＜処理１７−４：評価関数自体の学習＞
手動で予め設定した評価関数が正しいとは限らないため、評価関数自動学習部１７４が、評価関数自体を学習する。ここで学習する評価関数を学習評価関数と呼ぶ。学習がある程度進むと学習評価関数を用いて評価することが可能になる。その場合には、学習評価関数を評価関数として評価に用いることにしてもよい。

仕様Ｂは、予め判明している条件への対応についての仕様である。一例をあげると、形状パターンと制御方法の関係は、種々の条件で変化することから、例えば、仕様Ｂ１を板幅、仕様Ｂ２を鋼種とする区分で分ける必要がある事が考えられる。上記それぞれが変化することで、形状操作端の形状への影響度合が変化する。

この事例では制御対象プラント１は、センヂミア圧延機であり、実績データは形状実績となる。なおセンヂミア圧延機は、ステンレスなどの硬い材料を冷間圧延するためのクラスターロールを持つ圧延機である。ゼンジミア圧延機では、硬い材料に強圧下を与える目的で、小径のワークロールを用いる。このため、平坦な鋼板を得ることが難しい。この対策として、クラスターロールの構造やさまざまな形状制御部を採用している。センヂミア圧延機は一般には、上下の第１中間ロールが片テーパを持ち、シフトできるようになっているほか、上下に６個の分割ロールと２個のＡＳ−Ｕと呼ばれるロールを備えている。以下に説明する事例では、形状の実績データＳｉとしては、形状検出器の検出データを用い、さらに入力データＳ１としては、目標形状との差である、形状偏差を用いる。また制御操作量Ｓ３としては、＃１〜＃ｎのＡＳ−Ｕ、上下の第１中間ロールのロールシフト量とする。

図７に、センヂミア圧延機の形状制御に用いる場合のニューラルネットワークの構成を示す。ニューラルネットワークをニューラルネットと略す場合がある。ここでニューラルネットとは、制御ルール実行部１０用ではニューラル１０１のことであり、制御ルール学習部１１用ではニューラルネット１１１に示したニューラルネットを示しているが、いずも構造は同じである。

本実施例に示すセンヂミア圧延機の形状制御の事例では、制御対象プラント１からの実績データＳｉは形状検出器のデータ（ここでは、実績形状と目標形状との差である形状偏差が出力されるものとする）を含むセンヂミア圧延機の実績データであり、制御入力データ作成部２では、入力データＳ１として規格化形状偏差２０１、形状偏差段階２０２を得る。これによりニューラルネット１０１、１１１の入力層は、規格化形状偏差２０１、形状偏差段階２０２により構成される。なお図７では、形状偏差段階２０２をニューラルネット入力層への入力としているが、段階に応じてニューラルネットを切替てもよい。

また、出力層は、センヂミア圧延機の形状制御操作端である、ＡＳ−Ｕ、第１中間ロールに合わせて、ＡＳ−Ｕ操作度合３０１と第１中間操作度合３０２により構成される。それぞれの操作度合は、ＡＳ−Ｕについては、ＡＳ−Ｕ開方向（ロールギャップ（圧延機の上下作業ロール間の間隔）が開く方向）、ＡＳ−Ｕ閉方向（ロールギャップが閉じる方向）を各ＡＳ−Ｕについて持つ。また、第１中間ロールについては、第１中間ロール開方向（第１中間ロールが圧延機中心より外側に向かって動作する方向）、第１中間ロール閉方向（第１中間ロールが圧延機中心側に向かって動作する方向）を上下第１中間ロールについて持つ。例えば、形状検出器が２０ゾーンで、形状偏差段階２０２を３段階（大、中、小）とした場合、入力層は２３個の入力となる。また、ＡＳ−Ｕのサドルが７本、上下第１中間ロールが板幅方向でシフト可能とすると、出力層はＡＳ−Ｕ操作度合３０１が１４個、１中間操作度合が４個の計１８個となる。中間層の層数および各層のニューロン数については、適時設定する。なお図１０を参照して後述するが、出力層であるセンヂミア圧延機の形状制御操作端について、個々の制御操作端に対して＋方向、−方向の２種類の出力が出るようにニューラルネット出力を構成している。

図８に形状偏差と制御方法について示している。ここでは図８上部に、形状偏差が大きい場合の制御方法を示し、図８の下部に形状偏差が小さい場合の制御方法を示している。なお高さ方向は形状偏差の大きさ、横軸方向は板幅方向であり、板幅の両側が板端部、中央が板中央部を表している。この図８の上部に示すように、形状偏差が大きい場合は、板幅方向の局部的な形状偏差よりも全体的な形状を修正することを優先する。一方図８の下部に示すように、形状偏差が小さい場合は、局部的な形状偏差を小さくすることを優先する。

このように、形状偏差の大きさに応じて制御方法を変える必要があるため、図７に示すように形状偏差段階２０２を設けてニューラルネット１０１、１１１に与え、形状偏差の大きさを判定する。形状偏差については形状偏差の大小にかかわらず、例えば０〜１に規格化したものを用いるのがよい。これは、一例であって、形状偏差を規格化せずにそのままニューラルネットの入力層へ入力することも考えられるし、形状偏差の大小に応じて、ニューラルネット自体を変える（例えば、２つのニューラルネットを準備し、形状偏差が大きい場合に使用するニューラルネットと、小さい場合に使用するニューラルネットを分ける）事も考えられる。

以上説明した図７のような構成のニューラルネット１０１、１１１に対して、形状パターンに対する操作方法を学習させ、学習させたニューラルネットを用いて形状制御を実施する。同じ構成のニューラルネットでも、学習の条件により異なった特性となり、同じ形状パターンに対して異なった制御出力を出すようにすることができる。

そのため、形状実績の他の条件に応じて、複数のニューラルネットを使い分けることで、多様な条件に対して最適な制御を構成することができる。これは仕様Ｂへの対応である。先に説明した図４の構成は、係る仕様を行う場合の具体例を示している。図４の構成事例では、制御ルール実行部１０において使用するニューラルネット１０１を、圧延実績や、圧延機オペレータ名、被圧延材の鋼種、板幅等により別個のニューラルネットを準備し、制御ルールデータベースＤＢ１に登録しておく。ニューラルネット選択部１０２においては、その時点の条件に合致するニューラルネットを選択し、制御ルール実行部１０のニューラルネット１０１に設定する。なおニューラルネット選択部１０２における、その時点の条件としては、制御対象プラント1における実績データＳｉの中から板幅のデータを取り込み、これに応じてニューラルネットを選択するのがよい。また、ここで使用する複数のニューラルネットは、図７に示すような入力層、出力層を持てば、中間層の層数、各層のユニット数は異なっても良い。

図９に、ニューラルネット１０１、１１１の入力層へ入力するためのデータＳ１（規格化形状偏差２０１、形状偏差段階２０２）を作成する、制御入力データ作成部２の概要を示す。ここでは実績データＳｉとして、制御対象プラント１であるセンヂミア圧延機における圧延時の板形状を検出する、形状検出器の形状検出器データを入力とし、まず、形状偏差ＰＰ値演算装置２１０にて各形状検出器ゾーンの検出結果の最大値と最小値の差である形状偏差ＰＰ値（ＰｅａｋＴｏＰｅａｋ値）Ｓ_ＰＰを求める。形状偏差段階演算装置２１１では、形状偏差ＰＰ値Ｓ_ＰＰにより、形状偏差を大、中、小の３段階に分類する。形状は、被圧延材の伸び率の板幅方向分布であり、伸び率を１０−５単位で表すＩ−ＵＮＩＴが単位として用いられる。例えば、下式のように分類する。

ここでは、（１）式の成立により形状偏差段階が（大＝１、中＝０、小＝０）とし、（２）式の成立により形状偏差段階が（大＝０、中＝１、小＝０）とし、（３）式の成立により形状偏差段階が（大＝０、中＝０、小＝１）とするように分類している。なおここでは、各ゾーンの形状偏差については、Ｓ_ＰＭ＝Ｓ_ＰＰとした、Ｓ_ＰＭを用いて規格化を実施する。

以上のようにして、ニューラルネット１０１への入力データである規格化形状偏差２０１および形状偏差段階２０２を作成する。規格化形状偏差２０１および形状偏差段階２０２は、制御ルール実行部１０の入力データＳ１である。

図１０に、制御出力演算部３の概要を示す。制御出力演算部３は、制御ルール実行部１０内の、ニューラルネット１０１からの出力である制御操作端操作指令Ｓ２（センヂミア圧延機の形状制御の事例では、ＡＳ−Ｕ操作度合３０１、第１中間操作度合３０２がこれに相当する）より、各形状制御操作端への操作指令である制御操作量Ｓ３を作成する。なおここでは、複数個数が存在するＡＳ−Ｕ操作度合３０１、第１中間操作度合３０２について、各１つのデータ例を示しており、各データは開方向度合と閉方向度合の一対のデータで構成されている。

制御出力演算部３内では、入力されたＡＳ−Ｕ操作度合３０１は、各ＡＳ−Ｕ開方向、閉方向の出力をもつため、それらの差に変換ゲインＧ_ＡＳＵを掛ける事で、各ＡＳ−Ｕへの操作指令を出力する。変換ゲインＧ_ＡＳＵは、各ＡＳ−Ｕへの制御出力がＡＳ−Ｕ位置変更量（単位は長さ）となることから、度合から位置変更量への変換ゲインとなる。

また同じく入力された第１中間操作度合３０２は、第１中間外側、内側の出力をもつため、それらの差に変換ゲインＧ_１ＳＴを掛ける事で、各第１中間ロールシフトへの操作指令を出力する。変換ゲインＧ_１ＳＴは、各第１中間ロールへの制御出力が第１中間ロールシフト位置変更量（単位は長さ）となることから、度合から位置変更量への変換ゲインとなる。

以上により、制御操作量Ｓ３を演算することができる。制御操作量Ｓ３は、＃１〜＃ｎＡＳ−Ｕ位置変更量（ｎはＡＳ−Ｕロールのサドル数による）と、上第１中間シフト位置変更量、下第１中間シフト位置変更量から構成されている。なお、図１０には、制御操作外乱発生部１６からの外乱データを制御操作端操作指令Ｓ２に加算する系統が図示されている。

図６を参照して評価関数設定部１７の動作概要について説明する。評価関数は、圧延機における形状の制御に対するオペレータの意図を反映させたものである。オペレータの意図は圧延状態に応じて変化する。ここでは圧延状態は圧延速度により区別されるとする。図１１に示すように、圧延機の圧延速度は、停止状態から加速して一定速にて圧延し、減速して停止するというように変化する。その圧延速度の変化に応じて圧延状態も１７−１、１７−２、１７−３・・・と変化する。そして、圧延状態の変化に応じて、オペレータの意図も、意図１、意図２、意図３・・・というように変化する。オペレータの意図には例えば以下のようなものがある。

＜意図１＞低速で圧延を開始した当初は、通板の安定性を確保するために板の中央部を優先する。
＜意図２＞圧延を加速するときには、板の蛇行等を防止するため板端部を重視する。
＜意図３＞圧延速度が一定のときには、被圧延材の品質を考慮し、かつ板破断が発生しないように、板端部の伸び方向の形状偏差は許容し、中央部の形状を優先する。

上記各意図に評価関数Ａ１〜ＡＮを対応づけると以下のようになる。
意図１には評価関数Ａ２が対応する。
意図２には評価関数Ａ１が対応する。
意図３には評価関数Ａ３が対応する。

評価関数ＤＢＤＢ５には、上記のようなオペレータの意図と評価関数との対応関係を記憶する。図１２に評価関数ＤＢＤＢ５の一例を示す。上記の圧延状態に応じたオペレータの各意図に対して評価関数Ａ１〜Ａ６（評価関数ＮＯ）のいずれを使用するかを定義する。

意図１、２、３が適用される圧延状態は圧延速度により区別できるので、圧延速度に応じて評価関数Ａ１〜ＡＮのいずれを用いるのか選択することができる。オペレータまたは操業技術者等が、評価関数手動設定部１７１を用いて、圧延速度と評価関数Ａ１〜ＡＮとの対応づけを評価関数ＤＢＤＢ５に手動設定する。評価関数選択部１７２が、その設定に従って、（圧延速度の実績値を含む）圧延実績Ｓｉより定めた圧延状態に応じたオペレータの意図に対応する評価関数を選択し、制御出力判定部５および制御結果良否判定部６に設定する。

オペレータまたは操業技術者による評価関数の選択の手動設定は、実際のオペレータの判断が適切に設定されなかったり、オペレータが新たな判断基準を発見して使用するようになったりして、実際と異なる場合がありうる。この手動設定の良否を評価するために、評価関数選択方法学習部１７３が、実際の圧延操業で得られる実績データに基づいて、評価関数の選択方法の良否を判定する。更に、選択方法が良くないと判定したときには、評価関数選択方法学習部１７３は、評価関数データベースＤＢ５における評価関数の選択方法の設定を変更する。

図１３は、評価関数選択方法学習部１７３の動作概要を説明するための図である。オペレータは、圧延操業中に板の形状が悪いと判断したら手動操作を開始し、形状が良くなったと判断するまで手動操作を継続する。したがって、オペレータが手動操作を開始した時点と、手動操作を終了した時点にはオペレータの意図が反映される。評価関数選択方法学習部１７３は、その時点のデータで各評価関数Ａ１〜ＡＮでの形状評価結果を計算し、それら形状評価結果を相互に比較すれば、評価関数の相対的な良否、すなわちどの評価関数がオペレータの意図に近いものであるかを判定することができる。

形状評価値は値が小さいほど形状が良好であることを示すものとすると、手動操作を開始した時点での形状評価値が大きく、手動操作を終了した時点での形状評価値が小さい評価関数は、その圧延状態（圧延速度）で好適な評価関数と判断できる。

本実施例では、２乗平均を使用する評価関数、最大値あるいは最小値を使用する評価関数など、評価関数ごとに計算方法が異なるため、共通的な指標を評価関数の良否を評価するための指標（評価関数良否指標）として用いて比較する必要がある。ここでは一例として、評価関数選択方法学習部１７３は、以下の式に示す比率Ｘｉを用いて評価関数を比較する。
比率Ｘｉ＝（ａ−ｂ）／ｂ
ａは、手動操作を開始した時点の形状評価値である。ｂは、手動操作を終了した時点の形状評価値である。評価関数選択方法学習部１７３は、評価関数Ａ１〜ＡＮのうち、評価関数良否指標である比率Ｘｉが最も大きな値となる評価関数Ａｉを、そのときの圧延状態におけるオペレータの意図に最も合った評価を得られる評価関数であると判断し、最良の評価関数として選択する。

手動操作が開始あるいは終了したときの圧延状態およびそのときのオペレータの意図は、圧延実績より判定可能である。評価関数選択方法学習部１７３は、評価関数ＤＢＤＢ５における、該当するオペレータの意図に対応づけられている評価関数が、ここで選択された最良の評価関数と異なれば、該当するオペレータの意図に対応する評価関数を評価関数Ａｉに更新する。そして、評価関数選択方法学習部１７３は、次回からは変更後の設定に従って評価関数Ａｉを制御出力判定部５および制御結果良否判定部６に設定する。

図１３のグラフには、２つの評価関数Ａ１、Ａ２の形状評価値の時間推移が示されている。評価関数Ａ１の手動操作が開始された時点での形状評価値がＡ１Ｓであり、手動操作が終了した時点での形状評価値がＡ１Ｅである。評価関数Ａ２の手動操作が開始された時点での形状評価値がＡ２Ｓであり、手動操作が終了した時点での形状評価値がＡ２Ｅである。

図１３を見て明らかなように、評価関数Ａ２の比率Ｘ２＝（Ａ２Ｓ−Ａ２Ｅ）／Ａ２Ｅが、評価関数Ａ１の比率Ｘ１＝（Ａ１Ｓ−Ａ１Ｅ）／Ａ１Ｅよりも大きい。

更に、手動で設定した評価関数そのものが適当で無いという可能性も考慮して、評価関数学習部１７４により評価関数の学習を行う。

図１４は、評価関数学習部１７４の動作概要を説明するための図である。評価関数学習部１７４は、圧延により得られた板の形状の実績値である形状実績と、圧延における制御操作のパラメータ値である圧延実績とを入力とし、形状評価値を出力する評価関数用のニューラルネットワーク（評価関数用ニューラルネット）を設置し、実績データを用いて、その評価関数用ニューラルネットの学習を行う。なお、評価関数用ニューラルネットへの入力とする圧延実績には、評価関数に影響を与えそうな圧延実績（例えば圧延速度）を選択するとよい。学習済みのニューラルネットワークは評価関数として用いることができる。

先に述べたように、オペレータの意図する形状の評価は、オペレータが手動操作を開始した時点では板の形状が悪く、手動操作を終了した時点では板の形状は良いと解釈できる。そこで、圧延機により板を作成する過程で、評価関数学習部１７４は、オペレータが手動操作を開始した時点の形状評価値＝１（１は形状が悪いことを示す）とし、手動操作を終了した時点の形状評価値＝０（０は形状が良いことを示す）として、その時点での形状実績および圧延実績と共に教師データとして蓄積していく。そして、評価関数学習部１７４は、蓄積した教師データを用いて、ニューラルネットの教師あり学習を行う。これにより学習済みニューラルネットは、圧延実績および形状実績を入力すると、形状評価値を出力するものとなるので、評価関数として用いることができる。

図１５に、評価関数学習部１７４の概要構成を示す。制御出力判定部５および制御結果良否判定部６は、当初はオペレータが手動で設定した評価関数を用いている。評価関数学習部１７４は、形状実績と圧延実績を含む圧延実績データＳｉに後述する教師データを加えて学習データとして学習することにより、当初の評価関数に代わる評価関数を提供する評価関数用ニューラルネットを構築する。

評価関数実行部１７４は評価実行部と学習実行部とを有する。

評価実行部は、制御出力判定部５および制御結果良否判定部６にて用いられる評価関数用ニューラルネット１７４０を備え、その評価関数用ニューラルネット１７４０を用いて評価を実施する。

学習実行部は、その評価関数用ニューラルネット１７４０と同等の評価関数用ニューラルネット１７４１を備え、その評価関数用ニューラルネット１７４１を用いて学習を実施する。ここで、評価関数用ニューラルネット１７４１は、図１４に示すように、形状実績と圧延実績を入力とし、形状評価値を出力とするニューラルネットである。この評価関数用ニューラルネット１７４１の学習時には、形状実績および圧延実績を含む圧延実績データＳｉを入力データとし、後述する形状評価値を教師データとし、それらの組合せを学習データとする。従って、形状実績および圧延実績と教師データの組合せを学習データとして評価関数学習データデータベース１７４３に格納しておき、ある程度まで学習データが蓄積された段階で、学習実行部がニューラルネットの学習を実施するとよい。

学習実行部は、上述した評価関数用ニューラルネット１７４１の他に、評価関数用ニューラルネット学習制御部１７４４、入力データ作成部１７４５、および教師データ作成部１７４６を有している。

教師データ作成部１７４６においては、オペレータの形状に対する手動操作の信号を用いて、手動操作が開始されたタイミングにて、形状評価値＝１の教師データを作成する。また、教師データ作成部１７４６は、手動操作が開始されたタイミングを、入力データ作成部１７４５に通知する。入力データ作成部１７４５は、手動操作が開始されたタイミングでの形状実績および圧延実績を取得し、それを入力データとする。入力データ作成部１７４５で作成された入力データと教師データ作成部１７４６にて作成された教師データは、一組の学習データとして、評価関数学習データデータベース１７４３に保存される。

同様にして、教師データ作成部１７４６においては、オペレータの形状に対する手動操作の信号を用いて、手動操作が終了したタイミングにて、形状評価値＝０の教師データを作成する。また、教師データ作成部１７４６は、手動操作が終了したタイミングを、入力データ作成部１７４５に通知する。入力データ作成部１７４５は、手動操作が終了したタイミングでの形状実績および圧延実績を取得し、それを入力データとする。入力データ作成部１７４５で作成された入力データと教師データ作成部１７４６にて作成された教師データは、一組の学習データとして、評価関数学習データデータベース１７４３に保存される。

評価関数学習データデータベース１７４３に学習データがある程度（例えば１０００組）蓄積されたら、評価関数用ニューラルネット学習制御部１７４４が、評価関数学習データデータベース１７４３から学習データを読出し、その学習データから入力データと教師データを取得して評価関数用ニューラルネット１７４１に与え、ニューラルネットの学習を実施する。

学習実行部にて評価関数用ニューラルネット１７４１の学習が完了したら、その評価関数用ニューラルネット１７４１を、評価実行部の評価関数用ニューラルネット１７４０にコピーする。それにより、評価関数用ニューラルネット１７４０が新たなものに更新される。その結果、制御出力判定部５および制御結果良否判定部６では新たな評価関数用ニューラルネットワークによる評価を行うことが可能となる。

本実施例では、制御目標とする板幅や板厚、材料の鋼種などの条件が異なれば好適な評価関数は異なるものになると考えられるので、それぞれの条件ごとに別々に学習を行った学習済みニューラルネットを評価関数として評価関数データベースＤＢ５に格納し、条件に応じてそれらを使い分けることにしてもよい。また、圧延実績として板幅や板厚、鋼種等を考慮することで、１つのニューラルネットでカバーする事も可能である。

学習がある程度進むまでの間、評価関数用ニューラルネットから得られる評価関数の数値は不正確である可能性がある。そのため、評価関数選択方法学習部１７３は、設定評価関数Ａ１〜ＡＮの値だけでなく、圧延状態も考慮して、評価関数を選択して使用するようにしても良い。

以上のようにして、評価関数設定部１７は、圧延状態に応じた最適な評価関数を、制御出力設定部５および制御結果良否判定部６に設定する。

図１６は、制御出力判定部５の概要を説明するための図である。制御出力判定部５は、圧延現象モデル５０１と形状修正良否判定部５０２から構成されており、制御対象プラント１よりの実績データＳｉ、制御出力演算部３からの制御操作量Ｓ３、および出力判定データベースＤＢ３の情報を得て、制御操作端への制御操作量出力可否データＳ４を与える。係る構成により制御出力判定部５においては、制御出力演算部３にて演算した制御操作量Ｓ３を制御対象プラント１である圧延機に出力した場合の形状の変化を、既知の制御対象プラント１のモデル（図１６の実施例の場合は、圧延現象モデル５０１）に入力することで予測し、形状が悪化すると予想される場合は制御操作量出力ＳＯを抑制し、形状が大きく悪化する事を防止する。

より詳細に述べると、制御操作量Ｓ３を圧延現象モデル５０１に入力し制御操作量Ｓ３による形状変化を予測し、形状偏差修正量予測データ５０３を演算する。他方、制御対象プラント１からの形状検出器データＳｉ（現時点での形状偏差実績データ５０４）に、形状偏差修正量予測データ５０３を加算する事で形状偏差予測データ５０５を得、形状偏差予測データ５０５を評価することで、制御操作量Ｓ３を制御対象プラント１に出力したときに、形状がどのように変化するかが予測できる。現状の形状偏差実績データ５０４と形状偏差予測データ５０５より、形状修正良否判定部５０２においては、形状が良くなる方向に変化するのか、悪くなる方向に変化するのか判定し、制御操作量出力可否データＳ４を得る。

形状修正良否判定部５０２では、具体的には以下のようにして形状修正の良否判定を行う。まず、板幅方向での制御優先度を考慮するため、評価関数設定部１７から設定される圧延状態に応じた評価関数を用いて形状変化の良否を判定する。例えば下記式に示す評価関数Ｊを用いて形状変化の良否を判定する。下記式において、εｆｂ（ｉ）は形状偏差実績５０４、εｅｓｔ（ｉ）は形状偏差予測５０５、ｉは形状検出器ゾーン、ｒａｎｄは乱数項、Ｊ_Ａｉは評価関数設定部１７が設定した評価関数である。

上記式の評価関数Ｊを用いた場合、形状が良くなるときは評価関数Ｊが正、悪くなるときは評価関数Ｊが負となる。また、ｒａｎｄは乱数項であり、評価関数Ｊの評価結果を乱数的に変化させる。これにより、形状が悪化する場合であっても、評価関数Ｊとしては正になる場合が発生するため、圧延現象モデル５０１が正しくない場合についても形状パターンと制御方法の関係を学習していく事が可能である。ここでｒａｎｄは、試運転当初の様に、制御対象プラント１のモデルが不確実の場合は最大値を大きくし、ある程度制御方法を学習し安定した制御を実施したい場合は０とするように、適時変更する。

形状修正良否判定部５０２においては、評価関数Ｊを演算し、Ｊ≧０のとき制御操作量出力可否データＳ４＝１（可）とし、Ｊ＜０のとき制御操作量出力可否データＳ４＝０（否）のように制御操作量出力可否データＳ４を出力する。

制御出力抑制部４においては、制御出力判定部５の判定結果である制御操作量出力可否データＳ４に応じて、制御対象プラント１への制御操作量出力ＳＯの出力有無を決定する。制御操作量出力可否データＳ４は、＃１〜＃ｎＡＳ−Ｕ位置変更量出力、上第１中間シフト位置変更量出力、下第１中間シフト位置変更量出力であり、
ＩＦ（制御操作量出力可否データＳ４＝０）ＴＨＥＮ
＃１〜＃ｎＡＳ−Ｕ位置変更量出力＝０
上第１中間シフト位置変更量出力＝０
下第１中間シフト位置変更量出力＝０
ＥＬＳＥ
＃１〜＃ｎＡＳ−Ｕ位置変更量出力＝＃１〜＃ｎＡＳ−Ｕ位置変更量
上第１中間シフト位置変更量出力＝上第１中間シフト位置変更量
下第１中間シフト位置変更量出力＝下第１中間シフト位置変更量
ＥＮＤＩＦ
により決定される。

制御実行装置２０においては、制御対象プラント１（圧延機）からの実績データＳｉより、上記の演算を実行し、制御操作量出力ＳＯを制御対象プラント１（圧延機）に出力する事により形状制御を実施する。

次に、制御方法学習装置２１の動作概要について説明する。制御方法学習装置２１においては、制御実行装置２０で用いたデータの時間遅れデータを使用する。時間遅れＺ^−１は、ｅ^−ＴＳを意味し、予め設定した時間Ｔだけ遅延させる事を示す。制御対象プラント１は、時間応答を持つため、制御操作量出力ＳＯにより、実績データが変化するまで時間遅れが存在する。そのため、学習は、制御操作実行後、遅延時間Ｔだけ経過した時点での実績データを用いて実施する。形状制御においては、ＡＳ−Ｕや第１中間ロールに対する操作指令出力後、形状計が形状変化を検出するまで数秒要するため、Ｔ＝２から３秒程度に設定するのがよい（形状検出器の種類や圧延速度によっても、遅れ時間は変化するため、制御操作端の変更が形状変化となるまでの最適な時間をＴとして設定すればよい。）。

図１７は、制御良否判定部６の動作概要を説明するための図である。形状変化良否判定部６０２においては、下式のような良否判定評価関数Ｊ_Ｃを用いる。

なお、上記式において、εｆｂ（ｉ）は実績データＳｉに含まれる形状偏差実績データ、εｌａｓｔ（ｉ）は形状偏差実績データ前回値であり、Ｊ_Ａｉは評価関数設定部が設定した評価関数である。ここで、評価関数Ｊ_Ａｉには、評価関数設定部１７に手動で予め設定した評価関数Ｊ_Ａｉ、または評価関数学習部１７４が学習した評価関数（学習評価関数）を設定する。良否判定評価関数Ｊｃにより、制御結果の良否を判定する。また、制御出力判定部５の判定結果である制御操作量出力可否データＳ４が０（制御出力不可）の場合についても、実際に制御対象プラント１へ制御操作量出力＝０であるが、形状が悪くなったと判断する。

ここでは、制御操作量出力可否データＳ４＝０の場合、制御結果良否データＳ６＝−１とする。また閾値上限ＬＣＵと閾値加減ＬＣＬを、閾値条件（ＬＣＵ≧０≧ＬＣＬ）のもとで予め設定しておく。このときに、良否判定評価関数Ｊｃとの比較の結果が、Ｊｃ＞ＬＣＵであれば、制御結果良否データＳ６＝−１（形状が悪くなった）とし、
ＬＣＵ≧Ｊｃ≧０であれば、制御結果良否データＳ６＝０（形状が悪くなる方向に変化）とし、
０＞Ｊｃ≧ＬＣＬであれば、制御結果良否データＳ６＝１（形状が良くなる方向に変化）とし、
Ｊｃ＜ＬＣＬであれば、制御結果良否データＳ６＝０（形状が良くなった）とする。

ここで、制御結果良否データＳ６＝−１は、形状が悪くなったので、出力した制御出力を抑制する場合、制御結果良否データＳ６＝０は、形状変化無し、または形状が良くなったので出力した制御出力を保持する場合、制御結果良否データＳ６＝１は、形状が良くなる方向に変化したが、更に良くなる可能性が有るので、出力した制御量を増大させる場合である。

評価関数Ｊ_Ａｉが異なると良否判定評価関数Ｊｃは異なる。そのため、制御結果良否データＳ６の判定結果も異なる事が考えられる。そのため、制御方法学習装置２１においては、予め設定された各評価関数ついて、制御結果良否データＳ６の判定を実施する。

次に、学習データ作成部７の概要について説明する。図３に示したように、学習データ作成部７においては、制御結果良否判定部６からの判定結果（制御結果良否データＳ６）を基にして、制御操作端操作指令Ｓ２、制御操作量Ｓ３、制御出力抑制部の判定結果（制御操作量出力可否データＳ４）より、制御ルール学習部１１で使用するニューラルネット１１１に対する教師データＳ７ａを作成する。

この場合の教師データＳ７ａは、図７に示す、ニューラルネット１１１の出力層からの出力である、ＡＳ−Ｕ操作度合３０１、１中間操作度合３０２となる。学習データ作成部７は、ニューラルネット１０１の出力である制御操作端操作指令Ｓ２（ＡＳ−Ｕ操作度合３０１、１中間操作度合３０１）と、制御操作量出力ＳＯである＃１〜＃ｎＡＳ−Ｕ位置変更量出力、上第１中間シフト位置変更量出力、下第１中間シフト位置変更量出力を用いて、制御ルール学習部１１で使用するニューラルネット１１１に対する教師データＳ７ａを作成する。

学習データ作成部７の動作概要を説明するにあたり、図１０の制御出力演算部３における各部データや記号の関係を図１８に整理している。ここでは、ニューラルネット１０１の出力である制御操作端操作指令Ｓ２についてＡＳ−Ｕ操作度合３０１を代表的に示しており、操作度合正側のデータをＯＰｒｅｆ、操作度合負側のデータをＯＭｒｅｆ、制御操作外乱発生部１６からの乱数的に発生する操作度合を操作度合乱数Ｏｒｅｆ、変換ゲインをＧ、制御操作量出力ＳＯをＣｒｅｆとして説明する。このように、ここでは、簡単のため、制御ルール実行部１０のニューラルネット１０１の出力層からの出力として、操作度合正側および操作度合負側、制御操作外乱発生部１６からの乱数的に発生する操作度合を操作度合乱数としている。また、制御操作端に対する制御操作量出力ＳＯを操作指令値としている。

図１９は、学習データ作成部７における処理段階と処理内容を示している。ここで、図１８の記号の約束に則り説明すると、最初の処理段階７１では、操作指令値Ｃｒｅｆを（６）式により求めている。

次の処理段階７２では、制御結果良否データＳ６に応じて操作指令値Ｃｒｅｆを修正しＣ´ｒｅｆとする。具体的には制御結果良否データＳ６＝−１のとき（７）式、制御結果良否データＳ６＝０のとき（８）式、制御結果良否データＳ６＝１のとき（９）式により、操作指令値Ｃｒｅｆの修正値Ｃ´ｒｅｆとする。

処理段階７３では、修正された操作指令値Ｃ´ｒｅｆより、（１０）、（１１）式により操作度合修正量ΔＣｒｅｆを求める。

処理段階７４では、ニューラルネット１１１への教師データＯＰ´ｒｅｆ、ＯＭ´ｒｅｆを（１２）式により求める。

このように学習データ作成部７では、図１８に示すように、実際に制御対象プラント１に対して出力した操作指令値Ｃｒｅｆを、制御結果良否判定部６における判定結果である制御結果良否データＳ６に応じて、操作指令値修正値Ｃ´ｒｅｆを演算する。具体的には、制御結果良否データＳ６＝１の場合は、制御方向はＯＫであるが、制御出力が不足していると判断された場合で、操作指令値を同じ方向にΔＣｒｅｆだけ増加するようにする。逆に制御結果良否データＳ６＝−１の場合は、制御方向が間違っていると判断された場合で、操作指令値を逆方向にΔＣｒｅｆだけ減少するようにする。変換ゲインＧは、予め設定したものであるから既知である事から、操作度合正側および操作度合負側の値が判れば、修正量ΔＯｒｅｆを求める事が可能である。ここでΔＣｒｅｆは、予め適当な値をシミュレーション等で求めておき、設定する。以上の手順により、制御ルール学習部１１にて使用する教師データＯＰ´ｒｅｆ、ＯＭ´ｒｅｆは上記の（１２）式により求める事ができる。

なお図１９では簡便な事例で説明を行っているが、実際には、＃１〜＃ｎＡＳ−Ｕに対するＡＳ−Ｕ操作度合３０１および、上第１中間ロールシフト、下第１中間ロールシフトに対する第１中間操作度合３０２についてその全てを実施し、制御ルール学習部１１で用いるニューラルネット１１１の教師データ（ＡＳ−Ｕ操作度合教師データ、１中間操作度合教師データ）とする。

図２０は学習データデータベースＤＢ２に保存されたデータ例を示している。ニューラルネット１１１を学習するためには、多数の入力データＳ８ａと教師データＳ７ａの組合せが必要である。従って、学習データ作成部７で作成した教師データＳ７ａ（ＡＳ−Ｕ操作度合教師データ、第１中間操作度合）は、制御実行装置２０にて制御ルール実行部１０に入力された入力データＳ１（規格化形状偏差２０１および形状偏差段階）の時間遅れデータＳ８ａと組み合わせて一組の学習データＳ１１として、学習データデータベースＤＢ２に保存される。

なお図３のプラント制御装置においては、各種のデータベースＤＢ１、ＤＢ２、ＤＢ３、ＤＢ４、ＤＢ５を使用しているが、図２０に各データベースＤＢ１、ＤＢ２、ＤＢ３、ＤＢ４を連系的に管理運用するためのニューラルネット管理テーブルＴＢの構成を示す。管理テーブルＴＢは、仕様の管理テーブルを備えている。具体的には、管理テーブルＴＢは、仕様について（Ｂ１）板幅、（Ｂ２）鋼種、および制御の優先度についての評価関数Ａ１〜ＡＮに応じて区分けされる。（Ｂ１）板幅としては、例えば、３フィート幅、メータ幅、４フィート幅、５フィート幅の４区分が、鋼種としては、鋼種（１）〜鋼種（１０）の１０区分程度を用いる。また、制御の評価関数についてはＮ（Ｎは設定した評価関数の個数。本実施例ではＮ＝６。）種類とする。この場合、８０区分となり、２４０個のニューラルネットを、圧延条件に応じて使い分けて使用する事となる。

ニューラルネット学習制御部１１２は、図２０に示すような、入力データおよび教師データの組合せである学習データを、図２１のニューラルネット管理テーブルＴＢに従って、該当するニューラルネットＮｏ．と紐付けて、図２２に示すような学習データデータベースＤＢ２に格納する。

制御実行装置２０が、制御対象プラント１に対して、形状制御を実行するたびに、学習データが評価関数に応じてＮ組作成される。これは、同じ入力データ、制御出力に対して、制御結果良否判定が制御の優先度についてのＮ個の評価関数を用いて行われるため、教師データがＮ種類作成されるためである。教師データがある程度（例えば２００組）蓄積されたら、または新たに学習データデータベースＤＢ２に蓄積されたら、ニューラルネット学習制御部１１２は、ニューラルネット１１１の学習を指示する。

制御ルールデータベースＤＢ１には、図２１に示すような管理テーブルＴＢに従って、複数のニューラルネットが格納されており、ニューラルネット学習制御部１１２においては、学習が必要なニューラルネットＮｏ．を指定して、ニューラルネット選択部１１３が制御ルールデータベースＤＢ１より当該ニューラルネットを取り出し、ニューラルネット１１１に設定する。ニューラルネット学習制御部１１２は、学習データデータベースＤＢ２より、当該ニューラルネットに対応する、入力データおよび教師データの取り出しを、入力データ作成部１１４および教師データ作成部１１５に指示し、それらを用いてニューラルネット１１１の学習を実施する。なおニューラルネットの学習方法は手法が種々提案されており、いずれの手法を用いても良い。

ニューラルネット１１１の学習が完了すると、ニューラルネット学習制御部１１２は、学習結果であるニューラルネット１１１を、制御ルールデータベースＤＢ１の当該ニューラルネットＮｏ．の位置に書き戻すことで、学習が完了する。

学習は、図２１にて定義された全てのニューラルネットに対して定時間間隔（例えば１日毎）で一斉に実施しても良いし、新しい学習データがある程度（例えば１００組）蓄積されたニューラルネットＮｏ．のニューラルネットのみ、その時点で学習させても良い。

以上により、制御対象プラント１である圧延機の形状を大きく乱すことなく、
１）基準形状パターンと、それに対する制御操作を予め別々に設定し、制御操作方法を学習していくのではなく、形状パターンと制御操作の組合せを学習し、それを用いて制御操作を実施する。
２）新たな制御ルールは、予め予想できるものでは無く、全く予測できなかった制御ルールが最適となる場合も有る事から、ランダムに制御操作端を動作させ、それに対する制御結果を見ながら見つけていく。
３）制御対象に対する制御の優先度を決定する評価関数を、オペレータの感覚に合致するように、制御対象の状態に応じてオペレータの手動操作方法に合致するように設定する。
事が実現できる。

なお、制御ルールデータベースＤＢ１には、制御実行装置２０で使用するニューラルネットが格納されるが、格納されるニューラルネットが、乱数でイニシャル処理を実施しただけのものだと、ニューラルネットの学習が進行し、それなりの制御が可能となるまで時間がかかる。そのため、制御対象プラント１に対して、制御部を構築した時に、その時点で判明している制御対象プラント１の制御モデルに基づき、予めシミュレーションにて、制御ルールの学習を実施し、シミュレータでの学習が完了したニューラルネットをデータベースに格納しておく事で、制御対象プラントの立上げ当初から、ある程度の性能の制御を実施する事が可能である。

また、オペレータの手動操作方法に合致した評価関数を用いてニューラルネットの学習を実施しているため、制御出力による制御対象の変化に対してオペレータが手動操作を行う事が無くなり、オペレータの負荷軽減および制御精度、操業効率の向上が可能である。

以上説明した実施形態には以下に示す事項が含まれている。ただし、実施形態に含まれる事項が以下に示す事項に限られるものではない。

本開示の制御装置は、制御対象を制御する制御装置であって、与えられた制御ルールに従って前記制御対象へ制御出力を与える制御実行装置と、指定された評価関数を用いて前記制御対象に対して与えられた制御出力を評価し、その評価結果を利用して学習データを作成し、該学習データを学習することにより前記制御ルールを構築し、該制御ルールを前記制御実行装置に与える制御方法学習装置と、複数の評価関数を予め保持しており、前記制御対象への制御状態に基づいて、前記複数の評価関数のうちいずれかを選択し、前記選択した評価関数を前記制御方法学習装置に指定する評価関数設定部と、を有する。

この構成によれば、制御状態に基づいて選択した評価関数による制御出力に対する評価の評価結果を利用した学習データを学習して構築した制御ルールに従って制御対象へ制御出力を与えるので、制御結果の適切な良否判定に基づく制御が実行可能となることが期待される。

また、本開示によれば、前記評価関数設定部は、前記制御対象への制御状態とオペレータによる手動操作とに基づいて前記複数の評価関数の各々について評価関数良否指標を算出し、該評価関数良否判定指標に基づいて、前記制御方法学習装置に指定する評価関数を選択する。この構成によれば、オペレータによる手動操作と制御対象への制御状態との関係を利用することで、オペレータの意図する制御が高評価となる評価関数が選択されやすくなる。

また、本開示によれば、前記評価関数設定部は、前記オペレータが手動操作を開始したタイミングと、前記オペレータが手動操作を終了したタイミングとにおける前記評価関数の評価値を算出し、該評価値を用いて前記評価関数良否判定指標を算出する。この構成によれば、オペレータは、圧延操業中に板の形状が悪いと判断したら手動操作を開始し、形状が良くなったと判断するまで手動操作を継続するので、その時点での評価値からオペレータの意図を得ることができる。

また、本開示によれば、前記評価関数設定部は、前記オペレータが手動操作を開始したタイミングにおける前記評価関数の評価値ａと、前記オペレータが手動操作を終了したタイミングにおける前記評価関数の評価値ｂを算出し、前記評価関数良否判定指標を（ａ−ｂ）／ｂとして算出する。この構成によれば、複数の評価関数ごとに計算方法が異なる場合でも、評価関数良否指標を相互に比較することが可能である。

また、本開示によれば、前記評価関数は、前記制御対象への前記制御出力と該制御出力の制御結果が反映された前記制御対象の実績データとを入力とし、前記評価結果を出力するものであり、前記評価関数設定部は、オペレータによる手動操作と前記制御対象への前記制御出力と前記制御対象の実績データとに基づく学習データを学習することにより、前記評価関数を構築する。この構成によれば、オペレータの手動操作を利用するので、オペレータの意図を反映した評価関数を構築することができる。

また、本開示によれば、前記評価関数設定部は、前記オペレータが手動操作を開始したタイミングと、前記オペレータが手動操作を終了したタイミングとにおける前記制御対象への前記制御出力と前記制御対象の実績データとに基づく学習データを学習することにより、前記評価関数を構築する。この構成によれば、オペレータは、圧延操業中に板の形状が悪いと評価したら手動操作を開始し、形状が良くなったと評価するまで手動操作を継続するので、オペレータの評価を反映した評価値を学習データとし、オペレータの評価に近い評価を行う評価関数を構築することができる。

また、本開示によれば、前記評価関数設定部は、前記オペレータが手動操作を開始したタイミングにおける評価値を所定値ｃとして学習データを生成し、前記オペレータが手動操作を終了したタイミングにおける評価値を所定値ｄとして学習データを生成し、前記学習データを学習することにより、前記評価関数を構築する。この構成によれば、オペレータは、圧延操業中に板の形状が悪いと判断したら手動操作を開始し、形状が良くなったと判断するまで手動操作を継続するので、その時点での評価値からオペレータの意図を得ることができる。

また、本開示によれば、前記制御実行装置は、前記制御対象の実績データと制御操作との組合せに従って前記制御対象への制御出力を与える制御ルール実行部と、前記評価関数を用いて前記制御ルール実行部が出力する前記制御出力の適用可否を判定するとともに、適用否と判定したら当該実績データと制御操作との組合せが不適切であることを前記制御方法学習装置に通知する制御出力判定部と、該制御出力判定部が、適用否と判定したら、前記制御出力を前記制御対象に出力することを阻止する制御出力抑制部とを備え、前記制御方法学習装置は、前記制御実行装置が前記制御出力を実際に前記制御対象に出力した場合に、前記制御出力が前記制御対象の実績データに反映されるまでの時間遅れ後に、前記評価関数設定部が設定した評価関数を用いて、前記実績データが前記制御出力により改善されたか悪化したかという制御結果の良否を判定する制御結果良否判定部と、該制御結果良否判定部により判定された制御結果の良否と、前記制御出力とを用いて教師データを得る学習データ作成部と、前記実績データと前記教師データを学習データとして学習する制御ルール学習部とを備え、前記制御方法学習装置が学習する事で、前記制御対象プラントの状態に応じて複数の制御目標に対して別個の実績データと制御操作の組合せを得、得られた実績データと制御操作の組合せを前記制御ルール実行部における制御対象プラントの実績データと制御操作の定められた組合せとして使用する。

また、本開示のプラント制御装置は、実際には計算機システムとして実現されることになるが、この場合には計算機システム内に複数のプログラム群を形成することになる。

これらのプログラム群は、例えば、
制御実行装置の処理を達成させるための、制御対象プラントの実績データと制御操作の定められた組合せに従って制御出力を与える制御ルール実行プログラム、制御ルール実行プログラムが出力する制御出力の可否を判定するとともに、当該実績データと制御操作が誤りである事を前記制御方法学習装置に通知する制御出力判定プログラム、制御出力判定プログラムが、制御出力を制御対象プラントに出力した場合、制御対象プラントの前記実績データが悪化すると判断した場合は、制御出力を前記制御対象プラントに出力することを阻止する制御出力抑制プログラムであり、
制御方法学習装置の処理を達成させるための、制御実行装置が制御出力を実際に、制御対象プラントに出力した場合に、制御効果が実績データに表れるまでの時間遅れ後に、実績データが当該制御前に比較して良くなったか、悪くなったかについての制御結果の良否を判定する制御結果良否判定の処理を達成させるための制御結果良否判定プログラム、該制御結果良否判定プログラムにおける制御結果の良否と、制御出力をもちいて教師データを得る学習データ作成プログラム、前記実績データと前記教師データを学習データとして学習する制御ルール学習プログラムである。
そして、制御方法学習装置が学習する事で、前記制御対象プラントの状態に応じて複数の制御目標に対して別個の実績データと制御操作の組合せを得、得られた実績データと制御操作の組合せを前記制御ルール実行プログラムにおける制御対象プラントの実績データと制御操作の定められた組合せとして使用するものである。

なお本発明装置を実プラントに適用するに当たり、ニューラルネットの初期値を定めておく必要があるが、この点に関して実績データと制御操作の組合せを、制御対象プラントでの制御を実施する前に、制御対象プラントの制御モデルを用いてして、シミュレーションにより作成し、制御対象プラントにおける実績データと制御操作の組合せの学習期間を短縮するのがよい。

本発明は、例えば圧延設備の１つである圧延機の制御方法及び部に関するものであり、実適用に当たっての問題点は特に無い。

１：制御対象プラント、２：制御入力データ作成部、３：制御出力演算部、４：制御出力抑制部、５：制御出力判定部、６：制御結果良否判定部、７：学習データ作成部、１０：制御ルール実行部、１１：制御ルール学習部、２０：制御実行装置、２１：制御方法学習装置、ＤＢ１：制御ルールデータベース、ＤＢ２：出力判定データベース、ＤＢ３：学習データデータベース、Ｓｉ：実績データ、ＳＯ：制御操作量出力、Ｓ１：入力データ、Ｓ２：制御操作端操作指令、Ｓ３：制御操作量、Ｓ４：制御操作量出力可否データ、Ｓ５：良否判定データ、Ｓ６：制御結果良否データ、Ｓ７ａ、Ｓ７ｂ、Ｓ７ｃ：教師データ、Ｓ８ａ、Ｓ８ｂ、Ｓ８ｃ：入力データ（制御ルール学習部用）

Claims

制御対象を制御する制御装置であって、
与えられた制御ルールに従って前記制御対象へ制御出力を与える制御実行装置と、
指定された評価関数を用いて前記制御対象に対して与えられた制御出力を評価し、その評価結果を利用して学習データを作成し、該学習データを学習することにより前記制御ルールを構築し、該制御ルールを前記制御実行装置に与える制御方法学習装置と、
複数の評価関数を予め保持しており、前記制御対象への制御状態に基づいて、前記複数の評価関数のうちいずれかを選択し、前記選択した評価関数を前記制御方法学習装置に指定する評価関数設定部と、
を有する制御装置。
前記評価関数設定部は、前記制御対象への制御状態とオペレータによる手動操作とに基づいて前記複数の評価関数の各々について評価関数良否指標を算出し、該評価関数良否判定指標に基づいて、前記制御方法学習装置に指定する評価関数を選択する、
請求項１に記載の制御装置。
前記評価関数設定部は、前記オペレータが手動操作を開始したタイミングと、前記オペレータが手動操作を終了したタイミングとにおける前記評価関数の評価値を算出し、該評価値を用いて前記評価関数良否判定指標を算出する、
請求項２に記載の制御装置。
前記評価関数設定部は、前記オペレータが手動操作を開始したタイミングにおける前記評価関数の評価値ａと、前記オペレータが手動操作を終了したタイミングにおける前記評価関数の評価値ｂを算出し、前記評価関数良否判定指標を（ａ−ｂ）／ｂとして算出する、
請求項３に記載の制御装置。
前記評価関数は、前記制御対象への前記制御出力と該制御出力の制御結果が反映された前記制御対象の実績データとを入力とし、前記評価結果を出力するものであり、
前記評価関数設定部は、オペレータによる手動操作と前記制御対象への前記制御出力と前記制御対象の実績データとに基づく学習データを学習することにより、前記評価関数を構築する、
請求項１に記載の制御装置。
前記評価関数設定部は、前記オペレータが手動操作を開始したタイミングと、前記オペレータが手動操作を終了したタイミングとにおける前記制御対象への前記制御出力と前記制御対象の実績データとに基づく学習データを学習することにより、前記評価関数を構築する、
請求項５に記載の制御装置。
前記評価関数設定部は、前記オペレータが手動操作を開始したタイミングにおける評価値を所定値ｃとして学習データを生成し、前記オペレータが手動操作を終了したタイミングにおける評価値を所定値ｄとして学習データを生成し、前記学習データを学習することにより、前記評価関数を構築する、
請求項６に記載の制御装置。
前記制御実行装置は、前記制御対象の実績データと制御操作との組合せに従って前記制御対象への制御出力を与える制御ルール実行部と、前記評価関数を用いて前記制御ルール実行部が出力する前記制御出力の適用可否を判定するとともに、適用否と判定したら当該実績データと制御操作との組合せが不適切であることを前記制御方法学習装置に通知する制御出力判定部と、該制御出力判定部が、適用否と判定したら、前記制御出力を前記制御対象に出力することを阻止する制御出力抑制部とを備え、
前記制御方法学習装置は、前記制御実行装置が前記制御出力を実際に前記制御対象に出力した場合に、前記制御出力が前記制御対象の実績データに反映されるまでの時間遅れ後に、前記評価関数設定部が設定した評価関数を用いて、前記実績データが前記制御出力により改善されたか悪化したかという制御結果の良否を判定する制御結果良否判定部と、該制御結果良否判定部により判定された制御結果の良否と、前記制御出力とを用いて教師データを得る学習データ作成部と、前記実績データと前記教師データを学習データとして学習する制御ルール学習部とを備え、前記制御方法学習装置が学習する事で、前記制御対象プラントの状態に応じて複数の制御目標に対して別個の実績データと制御操作の組合せを得、得られた実績データと制御操作の組合せを前記制御ルール実行部における制御対象プラントの実績データと制御操作の定められた組合せとして使用する、
請求項１に記載の制御装置。
制御対象を制御するための制御方法であって、
与えられた制御ルールに従って前記制御対象へ制御出力を与え、
指定された評価関数を用いて前記制御対象に対して与えられた制御出力を評価し、
その評価結果を利用して学習データを作成し、
該学習データを学習することにより、前記制御ルールを構築し、
前記制御対象への制御状態に基づいて、予め保持しておいた複数の評価関数のうちいずれかを選択して指定する、
ことをコンピュータが実行する制御方法。