JP2022183827A

JP2022183827A - プラント制御システム、圧延機制御装置、プラント制御方法、及びプラント制御プログラム

Info

Publication number: JP2022183827A
Application number: JP2021091321A
Authority: JP
Inventors: 正剛綿島; Masatake Watajima; 敬規高田; Takanori Takada; 哲服部; Satoru Hattori; 佑樹田内; Yuki Tanaka; 大輝黒川; Daiki Kurokawa; 隆阿部; Takashi Abe
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2022-12-13

Abstract

【課題】適切な頻度で制御モデルを更新することで計算機負荷を低減し、制御ルールの性能維持を実現する。【解決手段】制御対象プラントの制御を実施するプラント制御システムは、制御対象プラントの実績データと制御操作の組合せに基づいて制御ルールを学習する制御方法学習装置と、制御方法学習装置によって学習された制御ルールに基づいて制御対象プラントの制御を実施する制御実行装置と、制御ルールに基づいて制御対象プラントの制御を実施した際の実績データに基づいて制御対象プラントに対する制御ルールの適合度を演算し、適合度に基づいて制御ルールを更新する制御ルール更新判断装置とを備えた。【選択図】図１

Description

本発明は、ニューラルネット等の人工知能技術を用いて行う実時間のフィードバック制御を行うと共に、人工知能の学習の自動更新機能を有するプラント制御システム、圧延機制御装置、プラント制御方法、及びプラント制御プログラムに関する。

従来から、各種のプラントにおいてはその制御により所望の制御結果を得るために各種制御理論に基づいたプラント制御が実施されている。

プラントの一例として例えば圧延機制御においては、制御の一例として板の波打ち状態を制御する形状制御を対象とした制御理論として、ファジィ制御やニューロ・ファジィ制御が適用されてきた。ファジィ制御は、クーラントを利用した形状制御に、また、ニューロ・ファジィ制御は、ゼンジミア圧延機の形状制御に適用されている。このうちニューロ・ファジィ制御を適用した形状制御は、特許文献１に示されるように、形状検出器で検出された実績形状パターンと目標形状パターンの差と、予め設定された基準形状パターンとの類似割合を求め、その類似割合からこれも予め設定された基準形状パターンに対する制御操作端操作量によって表現された制御ルールにより、操作端に対する制御出力量を求めることにより行われている。以下、従来技術として、ニューロ・ファジィ制御を用いたゼンジミア圧延機の形状制御を用いるものとする。

また制御装置の管理装置としては、特許文献３に示されるように油圧シリンダーのピストン位置を制御する油圧圧下装置と、複数の前記油圧圧下制御装置の管理装置とを含む油圧圧下制御装置の管理システムが知られている。

この管理システムでは、油圧圧下制御装置の制御モデルのパラメータの更新タイミングを判断し、制御モデルから油圧圧下制御装置への指令値とその実測値によってパラメータを調整する機能がある。

図５に、特許文献１の図１に記述されたゼンジミア圧延機の形状制御を示す。ゼンジミア圧延機の形状制御では、ニューロ・ファジィ制御が用いられる。この例では、パターン認識機構５１で、形状検出器５２にて検出した実形状より形状のパターン認識を行い、実形状が予め設定された基準形状パターンのどれに最も近いかを演算する。制御演算機構５３では、図６で示すような予め設定された形状パターンに対する制御操作端操作量で構成される制御ルールを用いて制御を実施する。図６についてより具体的に述べると、パターン認識機構５１では、形状検出器５２にて検出した形状実績と目標形状（εｒｅｆ）との差分（Δε）が、１から８の形状パターン（ε）のどれに最も近いかを演算し、制御演算機構５３では、１から８の制御方法のいずれかを選択し実行する。

ところが特許文献１の手法では、制御ルールの検証のために、圧延中にオペレータに手動操作を行ってもらい制御ルールの検証等行う場合が有るが、予想に反した形状変化を示す場合がある。つまり、上記の様にして決定した制御ルールが現実に則していない場合が発生する。これは、機械的特性の検討不足や圧延機の操業状態や機械条件の変化が原因であるが、予め設定した制御ルールが最も良いルールかどうかを１つ１つ検証するのは、考慮すべき条件が多く困難である。そのため、制御ルールを一度設定してしまうと、不具合が無い限りそのままとしてしまう場合が多い。

操業条件の変化等で、制御ルールが現実に則したものでなくなってくると、制御ルールが固定されているため、ある程度以上の制御精度を出すことは困難となってくる。また、一旦形状制御が動作してしまうと、オペレータは手動操作をしなくなる（制御にとって外乱となってしまう）ため、新たな制御ルールをオペレータの手動介入により見つけていくのも困難である。さらに、新しい規格の圧延材を圧延する場合も制御ルールをその材料にあわせて設定するのは困難である。

以上のように、従来の形状制御においては、予め設定された制御ルールを用いて制御するため、制御ルールを修正するのが困難であるという問題が有った。

この問題を解決するために、特許文献２に示すような、形状制御を行いながら制御ルールをランダムに変化させ、形状が良くなるルールを学習して行くことで、
１）圧延中に形状制御を実施しながら新たな制御ルールを発見していく。
２）新たな制御ルールは、予め予想できるものでは無く、全く予測できなかった制御ルールが最適となる場合も有る事から、ランダムに制御操作端を動作させ、それに対する制御結果を見ながら見つけていく。
ことを実現している。

特許第２８０４１６１号明細書特許第４００３７３３号明細書特許第５３６３３８０号明細書

上記従来技術は、予め代表的な形状を基準形状パターンとして設定し、基準波形パターンに対する制御操作端操作量との関係を示す制御ルールを基に制御を行っている。制御ルールの学習についても、基準波形パターンに対する制御操作端操作量に関するものであり、予め定めている代表的な基準形状パターンはそのまま用いている。そのため、特定の形状パターンにしか反応しない形状制御となってしまう問題がある。

基準形状パターンは、人間が予め対象となる圧延機に関する知識や、形状実績と手動介入操作を蓄積した経験より定めたものであるが、対象となる圧延機および被圧延材で発生する全ての形状を網羅する事は困難である。そのため、基準形状パターンとは異なる形状が発生した場合、形状制御による制御が実施されず、形状偏差が抑制されずに残ってしまい、あるいは似たような基準形状パターンと誤認識し、誤った制御操作を行って、逆に形状を悪化させてしまう場合も有る。

以上のように、従来の形状制御においては、予め設定された基準形状パターンとそれに対する制御ルールを用いて制御ルールの学習をし、制御を実施するため、制御精度の向上に限界があるという問題が有った。

また、Deep Learning適用形状制御で用いる制御モデルは、更新直後において高い制御効果を発揮できるものの、一定期間が経過し、プラント環境の経年変化や操業状況の変化などが発生すると、プラントへの適合度が低下し、制御効果を十分に発揮できなくなる。そのため制御モデルをプラントの状態によって逐次最適化しなければならないが、時々刻々と生成される圧延実績データを用いて、教師データの作成や制御モデル構築処理をリアルタイムで実行することは計算機負荷が大きい為、常に制御モデルを更新し続けることは困難である。

以上のことから本発明においては、制御対象プラントの制御を実施するプラント制御システムは、前記制御対象プラントの実績データと制御操作の組合せに基づいて制御ルールを学習する制御方法学習装置と、前記制御方法学習装置によって学習された前記制御ルールに基づいて前記制御対象プラントの制御を実施する制御実行装置と、前記制御ルールに基づいて前記制御対象プラントの制御を実施した際の前記実績データに基づいて前記制御対象プラントに対する該制御ルールの適合度を演算し、該適合度に基づいて該制御ルールを更新する制御ルール更新判断装置とを備えたことを特徴とする。

本発明を用いることにより、制御中に形状制御で使用する、形状パターンと操作方法の制御ルールを自動的に修正し最適なものとすることが可能となる。そのため、制御精度の向上、制御部の立上げ期間の短縮、経年変化に対する対応が可能となる等の効果が有る。

さらに本発明によると、制御ルールと実績データの適合度を評価し、制御ルールの更新タイミングを判定し、自動で再学習することにより、適切な頻度で制御モデルを更新することで計算機負荷を低減し、制御ルールの性能維持を実現する。

本発明の実施例に係るプラント制御システムの概要を示す図。本発明の実施例に係る制御ルール実行部１０の具体的な構成事例を示す図。本発明の実施例に係る制御ルール学習部１１の具体的な構成事例を示す図。本発明をゼンジミア圧延機の形状制御に用いる場合のニューラルネット構成を示す図。特許文献１の図１に記述されたゼンジミア圧延機の形状制御を示す図。特許文献１の図１に記述されたゼンジミア圧延機の形状制御における制御ルールを示す図。制御入力データ作成部２の概要を示す図。制御出力演算部３の概要を示す図。制御出力判定部５の概要を示す図。形状偏差と制御方法について示す図。制御結果良否判定部６の概要を示す図。制御出力演算部３における各部データや記号の関係を整理して示す図。学習データ作成部７における処理段階と処理内容を示す図。学習データデータベースＤＢ２に保存されたデータ例を示す図。データベース管理テーブルＴＢの例を示す図。学習データデータベースＤＢ２の例を示す図。制御ルール適合度評価部２５の概要を示す図。制御ルール更新評価部２６の概要を示す図。制御ルール更新処理管理部２４の概要を示す図。制御ルール評価値データベースＤＢ５の概要を示す図。コンピュータ５００のハードウェアの概要を示す図。

以下本発明の実施例について、図面を用いて詳細に説明するが、その前に本発明における知見、並びに本発明に至る経緯について圧延機の形状制御を例にして説明をしておく。

まず、本発明における上記課題を解決するためには、
１）基準形状パターンと、それに対する制御操作を予め別々に設定し、制御操作方法を学習していくのではなく、形状パターンと制御操作の組合せを学習し、それを用いて制御操作を実施する。
２）新たな制御ルールは、予め予想できるものでは無く、全く予測できなかった制御ルールが最適となる場合も有る事から、ランダムに制御操作端を動作させ、それに対する制御結果を見ながら見つけていく。
ことが必要となる。

これを実現するためには、形状制御に使用する形状パターンと制御操作の組合せを変化させて、制御結果が良くなるように制御操作を変更していく必要がある。そのためには、形状パターンと制御操作の組合せを学習可能なニューラルネットを構成し、圧延機で発生した形状パターンに対する、ニューラルネットの制御操作の出力を、制御結果の良否に応じて変更していく事が必要である。

上記を、操業中の圧延機に対して形状制御を実施しながら、実施すると、誤った制御出力を出す場合もあることから、形状が悪化し、板破断等の操業異常が発生する事がある。板破断が発生すると、圧延機で使用するロールの交換に時間を要したり、圧延中の被圧延材が無駄になったりと、ダメージが大きい。そのため、可能な限り誤った制御出力を圧延機に対して出力しないようにする事が必要である。

以上のことから本発明においては、これを実現するため、ニューラルネットが出力した制御操作の良否を、例えば圧延機の簡易モデル等を用いて検証し、明らかに形状が悪化すると考えられる出力は、圧延機の制御操作端に対して出力しないようにし、形状悪化を防止する。この時、ニューラルネットに関しては、その形状パターンに対する制御操作は誤りであるとして学習を実施する。

制御操作の良否の検証方法自体が誤っている可能性が有るため、ある確率で誤っていると判断されたニューラルネットの制御操作量出力についても、圧延機の制御操作端に出力することで、想定外の形状パターンと制御操作の組合せについても学習していく事が可能となる。

また経年変化によるプラントの環境変化や操業条件の変化により制御ルールがプラントに対して最適でなくなった場合、計算機負荷を監視し、適切なタイミングで制御ルールをプラントの状態によって逐次最適化することで、制御性能の低下を回避することが可能になる。

プラントに対する制御ルールの適合度は、プラントの操業中に逐次作成される実績データに含まれる形状をニューラルネットに入力することにより出力された値と、実績データに含まれる制御出力との誤差を元に評価することが可能になる。

図１に、本発明の実施例に係るプラント制御システムの概要を示す。図１のプラント制御システムは、制御対象プラント１と、制御対象プラント１からの実績データＳｉを入力して図６に例示したような制御ルール（ニューラルネット）に従い定めた制御操作量出力ＳＯを制御対象プラント１に与えて制御する制御実行装置２０と、制御対象プラント１からの実績データＳｉなどを入力して学習を行い、学習した制御ルールを制御実行装置２０における制御ルールに反映させる制御方法学習装置２１と、プラントの操業中に逐次作成される実績データＳｉと制御ルールの適合度を評価し、適切なタイミングで制御ルール学習指示を制御ルール学習部１１へ与える制御ルール更新判断装置２２と、複数のデータベースＤＢ（ＤＢ１からＤＢ５）、並びにデータベースＤＢのデータベース管理テーブルＴＢから構成されている。

制御実行装置２０は、制御入力データ作成部２、制御ルール実行部１０、制御出力演算部３、制御出力抑制部４、制御出力判定部５、制御操作外乱発生部１６を主たる要素として構成されている。

このうち制御実行装置２０においては、まず制御対象プラント１である圧延機の実績データＳｉより、制御入力データ作成部２を用いて、制御ルール実行部１０の入力データＳ１を作成する。制御ルール実行部１０は、制御対象の実績データＳｉと制御操作端操作指令Ｓ２の関係を表現するニューラルネット（制御ルール）を用いて、制御対象の実績データＳｉから制御操作端操作指令Ｓ２を作成する。制御出力演算部３においては、制御操作端操作指令Ｓ２をもとに、制御操作端への制御操作量Ｓ３を演算する。これにより、制御対象プラント１の実績データＳｉに応じて、ニューラルネットを用いて制御操作量Ｓ３を作成する。

また制御実行装置２０内の制御出力判定部５においては、制御対象プラント１からの実績データＳｉおよび制御出力演算部３からの制御操作量Ｓ３を用いて、制御操作端への制御操作量出力可否データＳ４を決定する。制御出力抑制部４においては、制御操作量出力可否データＳ４に応じて制御操作端への制御操作量Ｓ３の出力可否を決定し、可とされた制御操作量Ｓ３を、制御対象プラント１に与える制御操作量出力ＳＯとして出力する。これにより、異常と判断される制御操作量Ｓ３は、制御対象プラント１に出力されなくなる。なお制御操作外乱発生部１６は、プラント制御システムを検証する目的のために、外乱を生成し、制御対象プラント１に与えるものである。

以上のように構成された制御実行装置２０は、その処理実行のために、さらに後述するように、制御ルール評価値データベースＤＢ１および出力判定データベースＤＢ３を参照する。制御ルール評価値データベースＤＢ１は、制御実行装置２０内の制御ルール実行部１０と、後述する制御方法学習装置２１内の制御ルール学習部１１の双方にアクセス可能に接続されている。制御ルール学習部１１における学習結果としての制御ルール（ニューラルネット）が制御ルール評価値データベースＤＢ１に格納されており、制御ルール実行部１０は制御ルール評価値データベースＤＢ１に格納された制御ルールを参照する。出力判定データベースＤＢ３は、制御実行装置２０内の制御出力判定部５にアクセス可能に接続されている。

図２は、本発明の実施例に係る制御ルール実行部１０の具体的な構成事例を示している。制御ルール実行部１０は、制御入力データ作成部２で作成した入力データＳ１を入力して、制御出力演算部３に制御操作端操作指令Ｓ２を与える。制御ルール実行部１０はニューラルネット１０１を備えており、ニューラルネット１０１では基本的には図６に例示したような特許文献１の手法により制御操作端操作指令Ｓ２を定めている。本発明においては、制御ルール実行部１０はさらにニューラルネット選択部１０２を備えており、制御ルール評価値データベースＤＢ１に格納された制御ルールを参照することで、ニューラルネット１０１における制御ルールとして、最適な制御ルールを選択し、実行せしめる。このように図２の制御ルール実行部１０においては、オペレータ班や制御目的で分けられた複数のニューラルネットから、必要なニューラルネットを選択し、使用している。制御ルール評価値データベースＤＢ１には、制御対象プラント１からのデータとして、ニューラルネットおよび良否判定基準を選択できるような実績データ（操業班のデータ等）Ｓｉも含むのがよい。なお、ニューラルネットを実行すると制御ルールになるという関係にあることから、本明細書においてはニューラルネットと制御ルールを区別せず、同義の意味で使用している。

図１に戻り、制御方法学習装置２１においては、制御実行装置２０で使用するニューラルネット１０１の学習を実施する。制御実行装置２０が制御対象プラント１に対して、制御操作量出力ＳＯを出力した場合、実際に制御効果が実績データＳｉの変化となって現れるには時間を要する。このため、その時間だけ時間遅れさせたデータを用いて学習を実施する。図１において、Ｚ^－１は、各データに対する適宜の時間遅れ機能を表している。

制御方法学習装置２１は、制御結果良否判定部６、学習データ作成部７、制御ルール学習部１１、良否判定データベースＤＢ４を主たる要素として構成されている。

このうち、制御結果良否判定部６は、制御対象プラント１からの実績データＳｉおよび実績データ前回値Ｓｉ０、並びに良否判定データベースＤＢ４に記憶された良否判定データＳ５を用いて、実績データＳｉが良くなる方向に変化したか、悪くなる方向に変化したか判定し、制御結果良否データＳ６を出力する。

制御方法学習装置２１内の学習データ作成部７においては、制御実行装置２０にて作成した制御操作端操作指令Ｓ２、制御操作量Ｓ３、制御操作量出力可否データＳ４などの入力データをそれぞれ同じ時間だけ時間遅れさせたデータと、制御結果良否判定部６よりの制御結果良否データＳ６を用いて、ニューラルネットの学習に使用する新規の教師データＳ７ａを作成し、制御ルール学習部１１に与える。なお、教師データＳ７ａは、制御ルール実行部１０が出力する制御操作端操作指令Ｓ２に対応するものであり、学習データ作成部７は、制御結果良否判定部６が与える制御結果良否データＳ６を用いて制御ルール実行部１０が出力する制御操作端操作指令Ｓ２を推定して得たデータを、新規の教師データＳ７ａとして求めたものということができる。

制御ルール更新判断装置２２は、実績データＳｉと制御ルールから制御ルールのプラントへの適合度を評価し、制御処理計算機２３が高負荷になることなく処理できるタイミングで新たな教師データＳ７ａから制御ルールを学習し、制御ルールを更新する。制御処理計算機２３は、制御実行装置２０および制御ルール更新判断装置２２を実現する計算機である。

図１の説明に戻ると、制御ルール更新判断装置２２は、制御実行装置２０で使用するニューラルネット１０１の更新を実行する。制御ルール更新判断装置２２は、制御ルール更新処理管理部２４、制御ルール適合度評価部２５、制御ルール更新評価部２６、および制御ルール評価値データベースＤＢ５を備える。

制御ルール適合度評価部２５は、プラントの操業中に逐次作成される実績データＳｉに対して、データベース管理テーブルＴＢから実績データＳｉに対応するニューラルネット（制御ルール）Ｎｏ．Ｓ９を取得し、制御ルール評価値データベースＤＢ１から該当する制御ルールＳ１０を選択する。制御ルール適合度評価部２５は、選択した制御ルールへ実績データＳｉの形状を入力した際の出力と実績データＳｉに含まれる制御出力との差分（誤差）または差分に基づく指標をプラントに対する制御ルールの適合度として算出し、制御ルール評価値データベースＤＢ５へ格納する。制御ルール適合度評価部２５は、制御ルール更新評価部２６に対して、評価したニューラルネット（制御ルール）のＮｏ．と制御ルール更新評価の実行指示Ｓ１２を出力する。

制御ルール更新評価部２６は、制御ルール適合度評価部２５から制御ルール更新評価の実行指示を受けた後、制御ルール適合度評価部２５にて評価されたニューラルネット（制御ルール）Ｎｏ．の制御ルールを取得し（Ｓ１３）、その更新要否を評価し、評価結果を制御ルール評価値データベースＤＢ５に登録し、制御ルール評価値データベースＤＢ５に登録されている制御ルールの更新優先度を更新する（Ｓ１４）。制御ルールは、各ニューラルネットＮｏ．について、最新の所定数の制御ルール適合度評価値の平均の低い順番で高い更新優先度とする。

制御ルール更新処理管理部２４は、制御ルール評価値データベースＤＢ５から更新優先度が最も高い制御ルールを選択し（Ｓ１５）、制御ルール学習部１１へ制御ルールの学習を指示する処理実行指示Ｓ１６を与えることで、制御ルールの更新を実行させる。制御ルール学習の実行は計算機負荷が大きいため、制御ルール更新処理管理部２４は、制御処理計算機２３のＣＰＵ負荷とメモリ使用率等のリソース使用状況を監視し（Ｓ１７）、実績データＳｉから操業中か否かを監視し、制御プラントで更新対象の制御モデルが圧延に使用されていない、および／または、制御ルール学習処理を実行しても制御実行装置２０の処理が遅延しない場合に、処理実行指示Ｓ１６を出力する。その後、制御ルール更新処理管理部２４は、処理実行指示Ｓ１６を出力した制御ルールに関する情報を制御ルール評価値データベースＤＢ５から削除する削除指示Ｓ１８を出力する。

図３は、本発明の実施例に係る制御ルール学習部１１の具体的な構成事例を示している。制御ルール学習部１１は、入力データ作成部１１４、教師データ作成部１１５、ニューラルネット処理部１１０、ニューラルネット選択部１１３を主たる構成要素として構成されている。また制御ルール学習部１１は、外部からの入力として制御入力データ作成部２からの入力データＳ１を時間遅れさせたデータＳ８ａを、学習データ作成部７からの新規の教師データＳ７ａを得、また制御ルール評価値データベースＤＢ１および学習データデータベースＤＢ２に蓄積されたデータを参照する。

制御ルール学習部１１において、入力データＳ１は適宜の時間遅れ補償後に入力データ作成部１１４を介してニューラルネット処理部１１０に取り込まれる。

また制御ルール学習部１１において、学習データ作成部７からの新規の教師データＳ７ａは、教師データ作成部１１５において学習データデータベースＤＢ２に記憶されている過去の教師データＳ７ｂも含めた合計の教師データＳ７ｃとして、ニューラルネット処理部１１０に与えられる。これらの教師データＳ７ａ、Ｓ７ｂは、適宜、学習データデータベースＤＢ２に記憶されて、利用される。

同様に、制御入力データ作成部２からの入力データＳ８ａは、入力データ作成部１１４において学習データデータベースＤＢ２に記憶されている過去の入力データＳ８ｂも含めた合計の入力データＳ８ｃとして、ニューラルネット処理部１１０に与えられる。これらの入力データＳ８ａ、Ｓ８ｂは、適宜、学習データデータベースＤＢ２に記憶されて、利用される。

ニューラルネット処理部１１０は、ニューラルネット１１１とニューラルネット学習制御部１１２により構成されており、ニューラルネット１１１は、入力データ作成部１１４からの入力データＳ８ｃ、教師データ作成部１１５からの教師データＳ７ｃ、ニューラルネット選択部１１３が選択した制御ルール（ニューラルネット）を取り込み、最終的に決定したニューラルネットを制御ルール評価値データベースＤＢ１に格納する。

ニューラルネット学習制御部１１２は、入力データ作成部１１４、教師データ作成部１１５、ニューラルネット選択部１１３に対して、適宜のタイミングでこれらを制御し、ニューラルネット１１１の入力を得、また処理結果を制御ルール評価値データベースＤＢ１に格納すべく制御している。

ここで、図２の制御実行装置２０におけるニューラルネット１０１と、図３の制御方法学習装置２１におけるニューラルネット１１１は、いずれも同じ概念のニューラルネットであるが、利用するうえでの基本概念上の相違について説明をしておくと、以下のようである。まず制御実行装置２０におけるニューラルネット１０１は、予め定められた内容のニューラルネットであり、入力データＳ１を与えたときに対応する出力としての制御操作端操作指令Ｓ２を求めるものであり、いわば一方方向の処理に利用されるニューラルネットである。これに対し、制御方法学習装置２１におけるニューラルネット１１１は、入力データＳ１と制御操作端操作指令Ｓ２についての入力データＳ８ｃ、教師データＳ７ｃを学習データとして設定したときに、この入出力関係を満足するニューラルネットを学習により求めるためのものである。

上記のように構成された制御方法学習装置２１における基本的な処理の考え方は、以下のようである。まず、制御操作量出力可否データＳ４の内容が「可」の場合、制御対象プラント１に制御操作量出力ＳＯを出力し、制御結果良否データＳ６の内容が「良」（実績データＳｉが良くなる方向に変化）の場合、制御ルール実行部１０が出力した制御操作端操作指令Ｓ２は正しいと判断し、ニューラルネットの出力が制御操作端操作指令Ｓ２となるように学習データを作成する。

一方、制御操作量出力可否データＳ４の内容が「否」、または、制御対象プラント１に制御操作量出力ＳＯを出力し、制御結果良否データＳ６の内容が「否」（実績データＳｉが悪くなる方向に変化）の場合、制御ルール実行部１０が出力した制御操作端操作指令Ｓ２は誤っていると判断し、ニューラルネットの出力が出ないように学習データを作成する。このとき、制御出力として、同じ制御操作端に対して＋方向、－方向の２種類の出力が出るようにニューラルネット出力を構成しておき、出力した側の制御操作端操作指令Ｓ２が出力されないように学習データを作成する。

また図３に例示する制御ルール学習部１１においては、ニューラルネット学習制御部１１２によるデータ処理の結果として、以下のように処理している。ここでは、まず制御実行装置２０への入力データＳ１を時間遅れさせたＳ８ｃと、教師データ作成部１１５にて作成した教師データＳ７ｃの組合せである学習データを用いて、制御ルール実行部１０にて用いたニューラルネット１０１の学習を実施する。実際には、制御ルール実行部１０のニューラルネット１０１と同じニューラルネット１１１を制御ルール学習部１１内に備えて、各種条件で運用テストしてその時の応答を学習し、学習の結果としてより良い結果を生じることが確認された制御ルールを得るものである。学習は、複数個の学習データを用いて行わせる必要があるため、過去に作成された学習データを蓄積している学習データデータベースＤＢ２より、過去の学習データを複数個取り出して、学習し処理を実施するとともに、今回の学習データを学習データデータベースＤＢ２に格納する。また、学習したニューラルネットは、制御ルール実行部１０にて利用するために、制御ルール評価値データベースＤＢ１に格納される。

ニューラルネットの学習は、新しい学習データが作成される毎に、過去の学習データを一緒に用いて学習しても良いし、学習データがある程度（例えば１００個分）蓄積されてから、過去の学習データを一緒に用いて学習しても良い。

また、制御結果良否判定部６においては、良否判定データベースＤＢ４からの良否判定基準をもとに良否判定を実施する。制御結果の良否判定は、制御目的に応じて判断結果が異なるため、複数の制御目的に応じたニューラルネットを複数作成し、入力データが同じでも制御目的によりそれぞれ教師データを作成し、学習することで、１回分の入力データに対して複数の教師データを作成し、それぞれの教師データに対応するニューラルネットの学習に用いることで、同時に複数の制御目的に対応したニューラルネットを学習していくことが可能である。ここで、複数の制御目的とは、例えば形状制御の場合、板幅方向でどの部分（板端部、センター部、非対称部等）を優先的に制御したいか、複数の制御対象項目（例えば、板厚と張力、圧延荷重等）のいずれを優先的に制御したいか、等のことである。

上記の様な構成とした場合、一旦制御ルール実行部１０で用いられるニューラルネット１０１が学習してしまうと、新たな制御操作が実施されなくなる。そのため、制御操作外乱発生部１６により、適時新たな操作方法を乱数的に発生させ、制御操作量Ｓ３に加えて制御操作を実行する事で、新たな制御方法を学習していく。

以下、特許文献１に示すようなゼンジミア圧延機における形状制御を対象に、本プラント制御方法の詳細を説明する。なお形状制御に関しては、下記のような仕様Ａ、Ｂを採用するものとして説明する。

仕様Ａは、優先度についての仕様であり、板幅方向の優先度の情報を持つものとする。例えば形状制御においては、板幅方向全域にわたって目標値に制御する事が、機械特性上困難な場合が多い。そのため、板幅方向で下記２つの優先度についての仕様Ａ１、Ａ２を設ける。このうち優先度についての仕様Ａ１は「板端部を優先する」、優先度についての仕様Ａ２は「中央部を優先する」であり、Ａ１、Ａ２という２つの優先順位に従った制御を実施する。制御を実施する場合は優先度についての仕様Ａ１またはＡ２のいずれかを考慮する。

仕様Ｂは、予め判明している条件への対応についての仕様である。一例をあげると、形状パターンと制御方法の関係は、種々の条件で変化することから、例えば、仕様Ｂ１を板幅、仕様Ｂ２を鋼種とする区分で分ける必要がある事が考えられる。上記それぞれが変化することで、形状操作端の形状への影響度合が変化する。

この事例では制御対象プラント１は、ゼンジミア圧延機であり、実績データは形状実績となる。なおゼンジミア圧延機は、ステンレスなどの硬い材料を冷間圧延するためのクラスターロールを持つ圧延機である。ゼンジミア圧延機では、硬い材料に強圧下を与える目的で、小径のワークロールを用いる。このため、平坦な鋼板を得ることが難しい。この対策として、クラスターロールの構造やさまざまな形状制御部を採用している。ゼンジミア圧延機は一般には、上下の第１中間ロールが片テーパを持ち、シフトできるようになっているほか、上下に６個の分割ロールと２個のＡＳ－Ｕと呼ばれるロールを備えている。以下に説明する事例では、形状の実績データＳｉとしては、形状検出器の検出データを用い、さらに入力データＳ１としては、目標形状との差である、形状偏差を用いる。また制御操作量Ｓ３としては、＃１～＃ｎのＡＳ－Ｕ、上下の第１中間ロールのロールシフト量とする。

図４に、ゼンジミア圧延機の形状制御に用いる場合のニューラルネット構成を示す。ここでニューラルネットとは、制御ルール実行部１０用ではニューラルネット１０１のことであり、制御ルール学習部１１用ではニューラルネット１１１に示したニューラルネットを示しているが、いずも構造は同じである。

図４に示すゼンジミア圧延機の形状制御の事例では、制御対象プラント１からの実績データＳｉは形状検出器のデータ（ここでは、実績形状と目標形状との差である形状偏差が出力されるものとする）を含むゼンジミア圧延機の実績データであり、制御入力データ作成部２では、入力データＳ１として規格化形状偏差２０１、形状偏差段階２０２を得る。これによりニューラルネット１０１、１１１の入力層は、規格化形状偏差２０１、形状偏差段階２０２により構成される。なお図４では、形状偏差段階２０２をニューラルネット入力層への入力としているが、段階に応じてニューラルネットを切替てもよい。

また、出力層は、ゼンジミア圧延機の形状制御操作端である、ＡＳ－Ｕ、第１中間ロールに合わせて、ＡＳ－Ｕ操作度合３０１と第１中間操作度合３０２により構成される。それぞれの操作度合は、ＡＳ－Ｕについては、ＡＳ－Ｕ開方向（ロールギャップ（圧延機の上下作業ロール間の間隔）が開く方向）、ＡＳ－Ｕ閉方向（ロールギャップが閉じる方向）を各ＡＳ－Ｕについて持つ。また、第１中間ロールについては、第１中間ロール開方向（第１中間ロールが圧延機中心より外側に向かって動作する方向）、第１中間ロール閉方向（第１中間ロールが圧延機中心側に向かって動作する方向）を上下第１中間ロールについて持つ。例えば、形状検出器が２０ゾーンで、形状偏差段階２０２を３段階（大、中、小）とした場合、入力層は２３個の入力となる。また、ＡＳ－Ｕのサドルが７本、上下第１中間ロールが板幅方向でシフト可能とすると、出力層はＡＳ－Ｕ操作度合３０１が１４個、１中間操作度合が４個の計１８個となる。中間層の層数および各層のニューロン数については、適時設定する。なお図８を参照して後述するが、出力層であるゼンジミア圧延機の形状制御操作端について、個々の制御操作端に対して＋方向、－方向の２種類の出力が出るようにニューラルネット出力を構成している。

図１０に形状偏差と制御方法について示している。ここでは図１０上部に、形状偏差が大きい場合の制御方法を示し、図１０の下部に形状偏差が小さい場合の制御方法を示している。なお高さ方向は形状偏差の大きさ、横軸方向は板幅方向であり、板幅の両側が板端部、中央が板中央部を表している。この図１０の上部に示すように、形状偏差が大きい場合は、板幅方向の局部的な形状偏差よりも全体的な形状を修正することを優先する。一方図１０の下部に示すように、形状偏差が小さい場合は、局部的な形状偏差を小さくすることを優先する。

このように、形状偏差の大きさに応じて制御方法を変える必要があるため、図４に示すように形状偏差段階２０２を設けてニューラルネット１０１、１１１に与え、形状偏差の大きさを判定する。形状偏差については形状偏差の大小にかかわらず、例えば０～１に規格化したものを用いるのがよい。これは、一例であって、形状偏差を規格化せずにそのままニューラルネットの入力層へ入力することも考えられるし、形状偏差の大小に応じて、ニューラルネット自体を変える（例えば、２つのニューラルネットを準備し、形状偏差が大きい場合に使用するニューラルネットと、小さい場合に使用するニューラルネットを分ける）事も考えられる。

以上説明した図４のような構成のニューラルネット１０１、１１１に対して、形状パターンに対する操作方法を学習させ、学習させたニューラルネットを用いて形状制御を実施する。同じ構成のニューラルネットでも、学習の条件により異なった特性となり、同じ形状パターンに対して異なった制御出力を出すようにすることができる。

そのため、形状実績の他の条件に応じて、複数のニューラルネットを使い分けることで、多様な条件に対して最適な制御を構成することができる。これは仕様Ｂへの対応である。先に説明した図２の構成は、係る仕様を行う場合の具体例を示している。図２の構成事例では、制御ルール実行部１０において使用するニューラルネット１０１を、圧延実績や、圧延機オペレータ名、被圧延材の鋼種、板幅等により別個のニューラルネットを準備し、制御ルール評価値データベースＤＢ１に登録しておく。ニューラルネット選択部１０２においては、その時点の条件に合致するニューラルネットを選択し、制御ルール実行部１０のニューラルネット１０１に設定する。なおニューラルネット選択部１０２における、その時点の条件としては、制御対象プラント１における実績データＳｉの中から板幅のデータを取り込み、これに応じてニューラルネットを選択するのがよい。また、ここで使用する複数のニューラルネットは、図４に示すような入力層、出力層を持てば、中間層の層数、各層のユニット数は異なっても良い。

図７に、ニューラルネット１０１、１１１の入力層へ入力するためのデータＳ１（規格化形状偏差２０１、形状偏差段階２０２）を作成する、制御入力データ作成部２の概要を示す。ここでは実績データＳｉとして、制御対象プラント１であるゼンジミア圧延機における圧延時の板形状を検出する、形状検出器の形状検出器データを入力とし、まず、形状偏差ＰＰ値演算装置２１０にて各形状検出器ゾーンの検出結果の最大値と最小値の差である形状偏差ＰＰ値（ＰｅａｋＴｏＰｅａｋ値）Ｓ_ＰＰを求める。形状偏差段階演算装置２１１では、形状偏差ＰＰ値Ｓ_ＰＰにより、形状偏差を大、中、小の３段階に分類する。形状は、被圧延材の伸び率の板幅方向分布であり、伸び率を１０－５単位で表すＩ－ＵＮＩＴが単位として用いられる。例えば、下式のように分類する。

ここでは、（１）式の成立により形状偏差段階が（大＝１、中＝０、小＝０）とし、（２）式の成立により形状偏差段階が（大＝０、中＝１、小＝０）とし、（３）式の成立により形状偏差段階が（大＝０、中＝０、小＝１）とするように分類している。なおここでは、各ゾーンの形状偏差については、Ｓ_ＰＭ＝Ｓ_ＰＰとした、Ｓ_ＰＭを用いて規格化を実施する。

以上のようにして、ニューラルネット１０１への入力データである規格化形状偏差２０１および形状偏差段階２０２を作成する。規格化形状偏差２０１および形状偏差段階２０２は、制御ルール実行部１０の入力データＳ１である。

図８に、制御出力演算部３の概要を示す。制御出力演算部３は、制御ルール実行部１０内の、ニューラルネット１０１からの出力である制御操作端操作指令Ｓ２（ゼンジミア圧延機の形状制御の事例では、ＡＳ－Ｕ操作度合３０１、第１中間操作度合３０２がこれに相当する）より、各形状制御操作端への操作指令である制御操作量Ｓ３を作成する。なおここでは、複数個数が存在するＡＳ－Ｕ操作度合３０１、第１中間操作度合３０２について、各１つのデータ例を示しており、各データは開方向度合と閉方向度合の一対のデータで構成されている。

制御出力演算部３内では、入力されたＡＳ－Ｕ操作度合３０１は、各ＡＳ－Ｕ開方向、閉方向の出力をもつため、それらの差に変換ゲインＧ_ＡＳＵを掛ける事で、各ＡＳ－Ｕへの操作指令を出力する。変換ゲインＧ_ＡＳＵは、各ＡＳ－Ｕへの制御出力がＡＳ－Ｕ位置変更量（単位は長さ）となることから、度合から位置変更量への変換ゲインとなる。

また同じく入力された第１中間操作度合３０２は、第１中間外側、内側の出力をもつため、それらの差に変換ゲインＧ_１ＳＴを掛ける事で、各第１中間ロールシフトへの操作指令を出力する。変換ゲインＧ_１ＳＴは、各第１中間ロールへの制御出力が第１中間ロールシフト位置変更量（単位は長さ）となることから、度合から位置変更量への変換ゲインとなる。

以上により、制御操作量Ｓ３を演算することができる。制御操作量Ｓ３は、＃１～＃ｎＡＳ－Ｕ位置変更量（ｎはＡＳ－Ｕロールのサドル数による）と、上第１中間シフト位置変更量、下第１中間シフト位置変更量から構成されている。なお、図８には、制御操作外乱発生部１６からの外乱データを制御操作端操作指令Ｓ２に加算する系統が図示されている。

図９に、制御出力判定部５の概要を示す。制御出力判定部５は、圧延現象モデル５０１と形状修正良否判定部５０２から構成されており、制御対象プラント１よりの実績データＳｉ、制御出力演算部３からの制御操作量Ｓ３、および出力判定データベースＤＢ３の情報を得て、制御操作端への制御操作量出力可否データＳ４を与える。係る構成により制御出力判定部５においては、制御出力演算部３にて演算した制御操作量Ｓ３を制御対象プラント１である圧延機に出力した場合の形状の変化を、既知の制御対象プラント１のモデル（図９の実施例の場合は、圧延現象モデル５０１）に入力することで予測し、形状が悪化すると予想される場合は制御操作量出力ＳＯを抑制し、形状が大きく悪化する事を防止する。

より詳細に述べると、制御操作量Ｓ３を圧延現象モデル５０１に入力し制御操作量Ｓ３による形状変化を予測し、形状偏差修正量予測データ５０３を演算する。他方、制御対象プラント１からの形状検出器データＳｉ（現時点での形状偏差実績データ５０４）に、形状偏差修正量予測データ５０３を加算する事で形状偏差予測データ５０５を得、形状偏差予測データ５０５を評価することで、制御操作量Ｓ３を制御対象プラント１に出力したときに、形状がどのように変化するかが予測できる。現状の形状偏差実績データ５０４と形状偏差予測データ５０５より、形状修正良否判定部５０２においては、形状が良くなる方向に変化するのか、悪くなる方向に変化するのか判定し、制御操作量出力可否データＳ４を得る。

形状修正良否判定部５０２では、具体的には以下のようにして形状修正の良否判定を行う。まず形状制御の優先度についての仕様Ａ１、Ａ２で示したように、板幅方向での制御優先度を考慮するため、出力判定データベースＤＢ３には、板幅方向の重み係数ｗ（ｉ）を仕様Ａ１、仕様Ａ２の各仕様に対して設定しておく。それを用いて、例えば下記の（４）式のような評価関数Ｊを用いて形状変化の良否を判定する。なお（４）式において、ｗ（ｉ）は重み係数、εｆｂ（ｉ）は形状偏差実績データ５０４、εｅｓｔ（ｉ）は形状偏差予測データ５０５、ｉは形状検出器ゾーン、ｒａｎｄは乱数項である。

（４）式の評価関数Ｊを用いた場合、形状が良くなるときは評価関数Ｊが正、悪くなるときは評価関数Ｊが負となる。また、ｒａｎｄは乱数項であり、評価関数Ｊの評価結果を乱数的に変化させる。これにより、形状が悪化する場合であっても、評価関数Ｊとしては正になる場合が発生するため、圧延現象モデル５０１が正しくない場合についても形状パターンと制御方法の関係を学習していく事が可能である。ここでｒａｎｄは、試運転当初の様に、制御対象プラント１のモデルが不確実の場合は最大値を大きくし、ある程度制御方法を学習し安定した制御を実施したい場合は０とするように、適時変更する。

形状修正良否判定部５０２においては、評価関数Ｊを演算し、Ｊ≧０のとき制御操作量出力可否データＳ４＝１（可）とし、Ｊ＜０のとき制御操作量出力可否データＳ４＝０（否）のように制御操作量出力可否データＳ４を出力する。

制御出力抑制部４においては、制御出力判定部５の判定結果である制御操作量出力可否データＳ４に応じて、制御対象プラント１への制御操作量出力ＳＯの出力有無を決定する。制御操作量出力可否データＳ４は、＃１～＃ｎＡＳ－Ｕ位置変更量出力、上第１中間シフト位置変更量出力、下第１中間シフト位置変更量出力であり、
ＩＦ（制御操作量出力可否データＳ４＝０）ＴＨＥＮ
＃１～＃ｎＡＳ－Ｕ位置変更量出力＝０
上第１中間シフト位置変更量出力＝０
下第１中間シフト位置変更量出力＝０
ＥＬＳＥ
＃１～＃ｎＡＳ－Ｕ位置変更量出力＝＃１～＃ｎＡＳ－Ｕ位置変更量
上第１中間シフト位置変更量出力＝上第１中間シフト位置変更量
下第１中間シフト位置変更量出力＝下第１中間シフト位置変更量
ＥＮＤＩＦ
により決定される。

制御実行装置２０においては、制御対象プラント１（圧延機）からの実績データＳｉより、上記の演算を実行し、制御操作量出力ＳＯを制御対象プラント１（圧延機）に出力する事により形状制御を実施する。

次に、制御方法学習装置２１の動作概要について説明する。制御方法学習装置２１においては、制御実行装置２０で用いたデータの時間遅れデータを使用する。時間遅れＺ^－１は、ｅ^－ＴＳを意味し、予め設定した時間Ｔだけ遅延させる事を示す。制御対象プラント１は、時間応答を持つため、制御操作量出力ＳＯにより、実績データが変化するまで時間遅れが存在する。そのため、学習は、制御操作実行後、遅延時間Ｔだけ経過した時点での実績データを用いて実施する。形状制御においては、ＡＳ－Ｕや第１中間ロールに対する操作指令出力後、形状計が形状変化を検出するまで数秒要するため、Ｔ＝２から３秒程度に設定するのがよい（形状検出器の種類や圧延速度によっても、遅れ時間は変化するため、制御操作端の変更が形状変化となるまでの最適な時間をＴとして設定すればよい。）。

図１１に、制御結果良否判定部６の動作概要を示す。形状変化良否判定部６０２においては、下式のような良否判定評価関数Ｊｃを用いる。

なお（５）式において、εｆｂ（ｉ）は実績データＳｉに含まれる形状偏差実績データ、εｌａｓｔ（ｉ）は形状偏差実績データ前回値であり、ｗＣ（ｉ）は良否判定用の板幅方向重み係数である。ここで、良否判定用の重み係数ｗＣ（ｉ）は、良否判定データベースＤＢ４より、制御の優先度についての仕様Ａ１、Ａ２に応じて設定する。良否判定評価関数Ｊｃにより、制御結果の良否を判定する。また、制御出力判定部５の判定結果である制御操作量出力可否データＳ４が０（制御出力不可）の場合についても、実際に制御対象プラント１へ制御操作量出力＝０であるが、形状が悪くなったと判断する。

ここでは、制御操作量出力可否データＳ４＝０の場合、制御結果良否データＳ６＝－１とする。また閾値上限ＬＣＵと閾値加減ＬＣＬを、閾値条件（ＬＣＵ≧０≧ＬＣＬ）のもとで予め設定しておく。このときに、良否判定評価関数Ｊｃとの比較の結果が、Ｊｃ＞ＬＣＵであれば、制御結果良否データＳ６＝－１（形状が悪くなった）とし、ＬＣＵ≧Ｊｃ≧０であれば、制御結果良否データＳ６＝０（形状が悪くなる方向に変化）とし、０＞Ｊｃ≧ＬＣＬであれば、制御結果良否データＳ６＝１（形状が良くなる方向に変化）とし、Ｊｃ＜ＬＣＬであれば、制御結果良否データＳ６＝０（形状が良くなった）とする。

ここで、制御結果良否データＳ６＝－１は、形状が悪くなったので、出力した制御出力を抑制する場合、制御結果良否データＳ６＝０は、形状変化無し、または形状が良くなったので出力した制御出力を保持する場合、制御結果良否データＳ６＝１は、形状が良くなる方向に変化したが、更に良くなる可能性が有るので、出力した制御量を増大させる場合である。

このように、制御の優先度についての仕様Ａ１、Ａ２に応じて、板幅方向の重み係数ｗＣ（ｉ）が変わるため、良否判定評価関数Ｊｃは異なる。そのため、制御結果良否データＳ６の判定結果も異なる事が考えられる。そのため、制御方法学習装置２１においては、制御の優先度についての仕様Ａ１、Ａ２の２種類について、制御結果良否データＳ６の判定を実施する。

次に、学習データ作成部７の概要について説明する。図１に示したように、学習データ作成部７においては、制御結果良否判定部６からの判定結果（制御結果良否データＳ６）を基にして、制御操作端操作指令Ｓ２、制御操作量Ｓ３、制御出力抑制部の判定結果（制御操作量出力可否データＳ４）より、制御ルール学習部１１で使用するニューラルネット１１１に対する教師データＳ７ａを作成する。

この場合の教師データＳ７ａは、図４に示す、ニューラルネット１１１の出力層からの出力である、ＡＳ－Ｕ操作度合３０１、第１中間操作度合３０２となる。学習データ作成部７は、ニューラルネット１０１の出力である制御操作端操作指令Ｓ２（ＡＳ－Ｕ操作度合３０１、第１中間操作度合３０２）と、制御操作量出力ＳＯである＃１～＃ｎＡＳ－Ｕ位置変更量出力、上第１中間シフト位置変更量出力、下第１中間シフト位置変更量出力を用いて、制御ルール学習部１１で使用するニューラルネット１１１に対する教師データＳ７ａを作成する。

学習データ作成部７の動作概要を説明するにあたり、図８の制御出力演算部３における各部データや記号の関係を図１２に整理している。ここでは、ニューラルネット１０１の出力である制御操作端操作指令Ｓ２についてＡＳ－Ｕ操作度合３０１を代表的に示しており、操作度合正側のデータをＯＰｒｅｆ、操作度合負側のデータをＯＭｒｅｆ、制御操作外乱発生部１６からの乱数的に発生する操作度合を操作度合乱数Ｏｒｅｆ、変換ゲインをＧ、制御操作量出力ＳＯをＣｒｅｆとして説明する。このように、ここでは、簡単のため、制御ルール実行部１０のニューラルネット１０１の出力層からの出力として、操作度合正側および操作度合負側、制御操作外乱発生部１６からの乱数的に発生する操作度合を操作度合乱数としている。また、制御操作端に対する制御操作量出力ＳＯを操作指令値としている。

図１３は、学習データ作成部７における処理段階と処理内容を示している。ここで、図１２の記号の約束に則り説明すると、最初の処理段階７１では、操作指令値Ｃｒｅｆを（６）式により求めている。

次の処理段階７２では、制御結果良否データＳ６に応じて操作指令値Ｃｒｅｆを修正しＣ´ｒｅｆとする。具体的には制御結果良否データＳ６＝－１のとき（７）式、制御結果良否データＳ６＝０のとき（８）式、制御結果良否データＳ６＝１のとき（９）式により、操作指令値Ｃｒｅｆの修正値Ｃ´ｒｅｆとする。

処理段階７３では、修正された操作指令値Ｃ´ｒｅｆより、（１０）、（１１）式により操作度合修正量ΔＯｒｅｆを求める。

処理段階７４では、ニューラルネット１１１への教師データＯＰ´ｒｅｆ、ＯＭ´ｒｅｆを（１２）式により求める。

このように学習データ作成部７では、図１２に示すように、実際に制御対象プラント１に対して出力した操作指令値Ｃｒｅｆを、制御結果良否判定部６における判定結果である制御結果良否データＳ６に応じて、操作指令値修正値Ｃ´ｒｅｆを演算する。具体的には、制御結果良否データＳ６＝１の場合は、制御方向はＯＫであるが、制御出力が不足していると判断された場合で、操作指令値を同じ方向にΔＣｒｅｆだけ増加するようにする。逆に制御結果良否データＳ６＝－１の場合は、制御方向が間違っていると判断された場合で、操作指令値を逆方向にΔＣｒｅｆだけ減少するようにする。変換ゲインＧは、予め設定したものであるから既知である事から、操作度合正側および操作度合負側の値が判れば、修正量ΔＯｒｅｆを求める事が可能である。ここでΔＣｒｅｆは、予め適当な値をシミュレーション等で求めておき、設定する。以上の手順により、制御ルール学習部１１にて使用する教師データＯＰ´ｒｅｆ、ＯＭ´ｒｅｆは上記の（１２）式により求める事ができる。

なお図１３では簡便な事例で説明を行っているが、実際には、＃１～＃ｎＡＳ－Ｕに対するＡＳ－Ｕ操作度合３０１および、上第１中間ロールシフト、下第１中間ロールシフトに対する第１中間操作度合３０２についてその全てを実施し、制御ルール学習部１１で用いるニューラルネット１１１の教師データ（ＡＳ－Ｕ操作度合教師データ、１中間操作度合教師データ）とする。

図１４は学習データデータベースＤＢ２に保存されたデータ例を示している。ニューラルネット１１１を学習するためには、多数の入力データＳ８ａと教師データＳ７ａの組合せが必要である。従って、学習データ作成部７で作成した教師データＳ７ａ（ＡＳ－Ｕ操作度合教師データ、第１中間操作度合）は、制御実行装置２０にて制御ルール実行部１０に入力された入力データＳ１（規格化形状偏差２０１および形状偏差段階）の時間遅れデータＳ８ａと組み合わせて一組の学習データとして、学習データデータベースＤＢ２に保存される。

なお図１のプラント制御システムにおいては、各種のデータベースＤＢ１、ＤＢ２、ＤＢ３、ＤＢ４を使用しているが、図１４に各データベースＤＢ１、ＤＢ２、ＤＢ３、ＤＢ４を連系的に管理運用するためのデータベース管理テーブルＴＢの構成を示す。データベース管理テーブルＴＢは、仕様の管理テーブルを備えている。具体的には、データベース管理テーブルＴＢは、仕様について（Ｂ１）板幅、（Ｂ２）鋼種、および制御の優先度についての仕様Ａ１、Ａ２に応じて区分けされる。（Ｂ１）板幅としては、例えば、３フィート幅、メータ幅、４フィート幅、５フィート幅の４区分が、鋼種としては、鋼種（１）～鋼種（１０）の１０区分程度を用いる。また、制御の優先度についての仕様Ａについては、Ａ１およびＡ２の２種類とする。この場合、８０区分となり、８０個のニューラルネットを、圧延条件に応じて使い分けて使用する事となる。

ニューラルネット学習制御部１１２は、図１４に示すような、入力データおよび教師データの組合せである学習データを、図１５のデータベース管理テーブルＴＢに従って、該当するニューラルネットＮｏ．と紐付けて、図１６に示すような学習データデータベースＤＢ２に格納する。

制御実行装置２０が、制御対象プラント１に対して、形状制御を実行するたびに、学習データが２組作成される。これは、同じ入力データ、制御出力に対して、制御結果良否判定が制御の優先度についての仕様Ａ１および仕様Ａ２の２つの評価基準を用いて行われるため、教師データが２種類作成されるためである。教師データがある程度（例えば２００組）蓄積されたら、または新たに学習データデータベースＤＢ２に蓄積されたら、ニューラルネット学習制御部１１２は、ニューラルネット１１１の学習を指示する。

制御ルールデータベースＤＢ１には、図１５に示すようなデータベース管理テーブルＴＢに従って、複数のニューラルネットが格納されており、ニューラルネット学習制御部１１２においては、学習が必要なニューラルネットＮｏ．を指定して、ニューラルネット選択部１１３が制御ルール評価値データベースＤＢ１より当該ニューラルネットを取り出し、ニューラルネット１１１に設定する。ニューラルネット学習制御部１１２は、学習データデータベースＤＢ２より、当該ニューラルネットに対応する、入力データおよび教師データの取り出しを、入力データ作成部１１４および教師データ作成部１１５に指示し、それらを用いてニューラルネット１１１の学習を実施する。なおニューラルネットの学習方法は手法が種々提案されており、いずれの手法を用いても良い。

ニューラルネット１１１の学習が完了すると、ニューラルネット学習制御部１１２は、学習結果であるニューラルネット１１１を、制御ルール評価値データベースＤＢ１の当該ニューラルネットＮｏ．の位置に書き戻すことで、学習が完了する。

学習は、図１５にて定義された全てのニューラルネットに対して定時間間隔（例えば１日毎）で一斉に実施しても良いし、新しい学習データがある程度（例えば１００組）蓄積されたニューラルネットＮｏ．のニューラルネットのみ、その時点で学習させても良い。

図１７は制御ルール適合度評価部２５の構成を示す。制御ルール適合度評価部２５は、実績データＳｉと制御結果良否判定部６からの制御結果良否データＳ６を処理実行判断部２５４へ入力する。制御ルール適合度評価部２５は、形状が良くなる有効な操作が行われたことを確認できた場合に、実績データＳｉで用いられた制御ルールＳ１０を制御ルール評価値データベースＤＢ５から、この制御ルールＳ１０のニューラルネットＮｏ．Ｓ９をデータベース管理テーブルＴＢからそれぞれ取得する。処理実行判断部２５４は、実績データＳｉと制御結果良否データＳ６から、制御出力取得部２５１の処理実行の要否を判断し、制御出力取得部２５１の処理を実行する場合に処理実行指示Ｓ２５０５を出力する。制御出力取得部２５１は、制御ルールＳ１０、実績データＳｉ、および処理実行指示Ｓ２５０５が入力され、制御ルールＳ１０へ実績データＳｉに含まれる実形状を入力し、形状制御装置に対する出力Ｓ２５０１を得る。制御出力誤差演算部２５２は、出力Ｓ２５０１と実績データＳｉに含まれる形状制御の出力の差を（１３）式にて演算する。

ここで制御ルールＳ１０の出力Ｓ２５０１をｒ、実績データＳｉに含まれる形状制御の出力をｇ、形状制御の機器の総数をＮ、制御ルールＳ１０と実績データＳｉの出力誤差をＳＵＶとする。

制御出力誤差演算部２５２は、出力誤差ＳＵＶがある閾値ＴＳ以下となった場合、制御ルールＳ１０は制御対象プラントに対して適合していると判断し、適合度ＤＳＵを１とし、閾値ＴＳを上回った場合、制御ルールは制御対象プラントに対して不適合であると判断し、適合度ＤＳＵを０とする。制御出力誤差演算部２５２は、制御ルール評価値データベースＤＢ５へこの制御ルールＳ１０に対応するニューラルネットＮｏ．と適合度ＤＳＵの値を登録する。適合度ＤＳＵの演算は（１４）式にて行う。

閾値ＴＳが大きいほど適合度が１となる割合が増え、閾値ＴＳが小さいほど適合度が０となる割合が増えるので、後述する制御ルール更新判断結果が閾値ＴＳによって大きく変化する。制御ルールを短いスパンで更新したい場合は閾値ＴＳを小さい値に設定するなど、プラントの操業に合わせて柔軟に設定する必要がある。

その後制御出力誤差演算部２５２は、制御ルール更新評価指示部２５３へ処理実行指示Ｓ２５０４を出力する。制御ルール更新評価指示部２５３は、制御出力誤差演算部２５２からの処理実行指示を受けて、ニューラルネットＮｏ．を含む処理実行指示Ｓ１２を制御ルール更新評価部２６へ出力する。

図１８は制御ルール更新評価部２６の構成を示す。制御ルール更新評価部２６は、制御ルール適合度評価部２５からニューラルネットＮｏ．を含む処理実行指示Ｓ１２を受け取ったタイミングで処理を実行する。制御ルール更新要否判定部２６１は、処理実行指示Ｓ１２に含まれるニューラルネットＮｏ．について、一定期間（担当オペレータ毎の操作のばらつきを抑制するために、オペレータのシフトが一巡する期間、例えば一週間）の適合度ＤＳＵを制御ルール評価値データベースＤＢ５から取得し（Ｓ１３ａ）、その平均値ＵＥＶを演算し、制御ルール評価値データベースＤＢ５へ登録する（Ｓ１４ａ）。演算式を（１５）式にて示す。

ここで一定期間分のデータ数をＷとする。

平均値ＵＥＶが閾値ＴＵ以下となった場合、制御ルール更新要否フラグＲＵＦを１とし、それ以外の場合は制御ルール更新要否フラグＲＵＦを０として制御ルール評価値データベースＤＢ５に登録する。ただし適合度ＤＳＵが一定期間分蓄積されていない場合、制御ルール更新要否フラグＲＵＦ算出演算を実行しない。演算式を（１６）式にて示す。

制御ルール更新要否フラグの演算結果は閾値ＴＵの設定によって変化する。このため、制御ルールの更新頻度を下げたい場合は閾値ＴＵを小さい値に設定するなど、プラントの操業に合わせて柔軟に設定する必要がある。

その後制御ルール更新要否判定部２６１は、制御ルール更新優先度更新部２６２へ処理実行指示Ｓ２６０１を出力する。制御ルール更新優先度更新部２６２は、処理実行指示Ｓ２６０１を受けて、制御ルール評価値データベースＤＢ５に登録されているニューラルネットＮｏ．毎の制御ルール更新優先度を読み出し（Ｓ１３ｂ）、更新する（Ｓ１４ｂ）。制御ルール更新優先度は、制御ルール評価値データベースＤＢ５に登録されている平均値ＵＥＶが小さいニューラルネットＮｏ．から順に１，２，３，・・・と自然数を割付けていく。

図１９は制御ルール評価値データベースＤＢ５の詳細を示す。制御ルール評価値データベースＤＢ５は、例えばテーブル形式で、ニューラルネットＮｏ．に対して、制御ルール更新要否フラグＲＵＦ、制御ルール更新優先度、平均値ＵＥＶ、各適合度ＤＳＵおよびそれらの演算実行日時を対応付けて登録する。

図２０は制御ルール更新処理管理部２４の概要を示す。制御ルール更新処理管理部２４は、制御ルール評価値データベースＤＢ５から制御ルール更新優先度が最も高い制御ルールに該当するニューラルネットＮｏ．Ｓ１５を取得し、制御ルール学習部１１へ処理実行指示Ｓ１６を与える。ただし処理実行指示Ｓ１６は、制御ルール学習部１１の実行処理を担う制御処理計算機２３の計算機負荷情報Ｓ１７（例えばＣＰＵ負荷やメモリ使用率等）から、制御処理計算機２３の計算機負荷が低い場合、および／または、実績データＳｉを参照して制御対象プラントが更新対象の制御モデルを圧延に使用している状況でないことを確認できた場合に限定する。これは制御処理計算機２３に過剰な負荷が掛かることによって制御実行装置２０の処理に遅延が発生し、制御対象プラントへの制御出力タイミングが遅延することを防ぎ、また、操業中に制御ルールが変更されることを防ぐためである。制御ルール更新可否判断部２４１から制御ルール学習部１１へ処理実行指示Ｓ１６が送信された後、制御ルール更新可否判断部２４１から制御ルール更新完了処理部２４２へニューラルネットＮｏ．Ｓ１５を含む処理実行指示Ｓ２４０１が出力される。制御ルール更新完了処理部２４２は、処理実行指示Ｓ２４０１を受信すると、制御ルール評価値データベースＤＢ５に登録されているニューラルネットＮｏ．Ｓ１５に紐づく情報を全て削除する。

以上により、制御対象プラント１である圧延機の形状を大きく乱すことなく、
１）基準形状パターンと、それに対する制御操作を予め別々に設定し、制御操作方法を学習していくのではなく、形状パターンと制御操作の組合せを学習し、それを用いて制御操作を実施する。
２）新たな制御ルールは、予め予想できるものでは無く、全く予測できなかった制御ルールが最適となる場合も有る事から、ランダムに制御操作端を動作させ、それに対する制御結果を見ながら見つけていく。
事が実現できる。

なお、制御ルール評価値データベースＤＢ１には、制御実行装置２０で使用するニューラルネットが格納されるが、格納されるニューラルネットが、乱数でイニシャル処理を実施しただけのものだと、ニューラルネットの学習が進行し、それなりの制御が可能となるまで時間がかかる。そのため、制御対象プラント１に対して、制御部を構築した時に、その時点で判明している制御対象プラント１の制御モデルに基づき、予めシミュレーションにて、制御ルールの学習を実施し、シミュレータでの学習が完了したニューラルネットをデータベースに格納しておく事で、制御対象プラントの立上げ当初から、ある程度の性能の制御を実施する事が可能である。

図２１は、制御実行装置２０、制御方法学習装置２１、制御ルール更新判断装置２２、制御処理計算機２３、およびこれらを適宜統合したシステムの各システムを実現するコンピュータ５００のハードウェアの概要を示す図である。コンピュータ５００では、ＣＰＵなどのプロセッサ５１０、ＲＡＭ（Random Access Memory）などのメモリ５２０、ＳＳＤ（Solid State Drive）やＨＤＤ（Hard Disk Drive）などのストレージ５３０、ネットワークＩ／Ｆ（Inter/Face）５４０、入出力装置５５０（例えばキーボード、マウス、タッチパネル、ディスプレイ等）、および周辺装置５６０が、バスを介して接続されている。

コンピュータ５００において、各システムを実現するための各プログラムがストレージ５３０から読み出されプロセッサ５１０およびメモリ５２０の協働により実行されることで、各システムが実現される。あるいは、各システムを実現するための各プログラムは、ネットワークＩ／Ｆ５４０を介した通信により外部のコンピュータから取得されてもよい。あるいは各プログラムは、非一時的記録媒体に記録され、媒体読み取り装置によって読み出されることで取得されてもよい。

なお本発明装置を実プラントに適用するに当たり、ニューラルネットの初期値を定めておく必要があるが、この点に関して実績データと制御操作の組合せを、制御対象プラントでの制御を実施する前に、制御対象プラントの制御モデルを用いてシミュレーションにより作成し、制御対象プラントにおける実績データと制御操作の組合せの学習期間を短縮するのがよい。

本発明は上述の実施形態に限定されるものではなく、様々な変形例を含む。例えば、上述の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、矛盾しない限りにおいて、ある実施形態の構成の一部を他の実施形態の構成で置き換え、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、構成の追加、削除、置換、統合、または分散をすることが可能である。また実施形態で示した構成および処理は、処理効率あるいは実装効率に基づいて適宜分散、統合、または入れ替えることが可能である。

１：制御対象プラント、２０：制御実行装置、２１：制御方法学習装置、２２：制御ルール更新判断装置、２３：制御処理計算機、５００：コンピュータ

Claims

制御対象プラントの制御を実施するプラント制御システムであって、
前記制御対象プラントの実績データと制御操作の組合せに基づいて制御ルールを学習する制御方法学習装置と、
前記制御方法学習装置によって学習された前記制御ルールに基づいて前記制御対象プラントの制御を実施する制御実行装置と、
前記制御ルールに基づいて前記制御対象プラントの制御を実施した際の前記実績データに基づいて前記制御対象プラントに対する該制御ルールの適合度を演算し、該適合度に基づいて該制御ルールを更新する制御ルール更新判断装置と
を備えたことを特徴とするプラント制御システム。
請求項１に記載のプラント制御システムであって、
前記制御ルール更新判断装置は、
所定の各タイミングにおける前記適合度を演算する制御ルール適合度評価部と、
直近の所定期間の前記所定の各タイミングにおける前記適合度に基づいて、前記制御ルールの更新要否および更新優先度を判定する制御ルール更新評価部と、
前記更新要否および前記更新優先度に基づいて前記制御ルールの更新指示を出力する制御ルール更新処理管理部と
を備えたことを特徴とするプラント制御システム。
請求項２に記載のプラント制御システムであって、
前記制御ルール更新評価部は、
前記直近の所定期間の前記所定の各タイミングで演算された前記適合度と所定基準値との比較結果に基づいて前記更新要否を判定する
ことを特徴とするプラント制御システム。
請求項２に記載のプラント制御システムであって、
前記制御ルール適合度評価部は、
前記制御ルールに基づいて前記制御対象プラントの制御を実施した際の制御出力と前記実績データに含まれる制御出力との出力誤差が、閾値以下である場合に該制御ルールが該制御対象プラントに対して適合していると判断して前記適合度を１とし、閾値より大である場合に該制御ルールが該制御対象プラントに対して適合していないと判断して前記適合度を０とし、
前記制御ルール更新評価部は、
前記直近の所定期間の前記所定の各タイミングで演算された前記適合度の平均に基づいて前記更新要否および前記更新優先度を判定する
ことを特徴とするプラント制御システム。
請求項２に記載のプラント制御システムであって、
前記制御ルール更新処理管理部は、
前記制御対象プラントで更新対象の前記制御ルールを前記制御実行装置で使用している状況でないことを条件として前記更新指示を出力する
ことを特徴とするプラント制御システム。
請求項５に記載のプラント制御システムであって、
前記制御実行装置および前記制御方法学習装置が稼働する制御処理計算機が所定の高負荷状態でないことを条件として前記更新指示を出力する
ことを特徴とするプラント制御システム。
請求項１に記載のプラント制御システムであって、
前記制御実行装置は、
制御対象プラントの実績データと制御操作の定められた組合せに従って制御出力を与える制御ルール実行部と、
該制御ルール実行部が出力する制御出力の可否を判定するとともに、当該実績データと制御操作が誤りである事を前記制御方法学習装置に通知する制御出力判定部と、
該制御出力判定部が、制御出力を前記制御対象プラントに出力した場合、前記制御対象プラントの前記実績データが悪化すると判断した場合は、制御出力を前記制御対象プラントに出力することを阻止する制御出力抑制部と、を備え、
前記制御方法学習装置は、
前記制御実行装置が制御出力を実際に、制御対象プラントに出力した場合に、制御効果が実績データに表れるまでの時間遅れ後に、実績データが制御前に比較して良くなったか、悪くなったかについての制御結果の良否を判定する制御結果良否判定部と、該制御結果良否判定部における制御結果の良否と、前記制御出力をもちいて教師データを得る学習データ作成部と、前記実績データと前記教師データを学習データとして学習する制御ルール学習部と、を備え、
前記制御方法学習装置が学習する事で、前記制御対象プラントの状態に応じて複数の制御目標に対して別個の実績データと制御操作の組合せを得、得られた実績データと制御操作の組合せを前記制御ルール実行部における制御対象プラントの実績データと制御操作の定められた組合せとして使用することを特徴とするプラント制御システム。
請求項７に記載のプラント制御システムであって、
制御対象プラントの実績データの大小に応じて、実績データと制御操作の組合せを替える為、実績データの大小に関する情報と、実績データを規格化しパターン認識を実施しやすくする情報を用いて、実績データと制御操作の組合せを学習し、制御する事を特徴とするプラント制御システム。
請求項７、または請求項８に記載のプラント制御システムであって、
前記制御ルール実行部は、制御対象プラントの実績データと制御操作の定められた組合せを第１のニューラルネットとして保持し、前記制御ルール学習部は、実績データと制御操作の組合せを第２のニューラルネットとして保持し、前記制御方法学習装置における学習の結果得られた第２のニューラルネットを前記制御ルール実行部における前記第１のニューラルネットとして使用することを特徴とするプラント制御システム。
請求項７から請求項９のいずれか１項に記載のプラント制御システムであって、
前記制御実行装置は、前記制御出力に外乱を与える制御操作外乱発生部を備え、前記制御方法学習装置は、外乱を印加されたときも含めて学習することを特徴とするプラント制御システム。
請求項７から請求項１０のいずれか１項に記載のプラント制御システムであって、
前記制御方法学習装置は、予め定められた複数の仕様のもとでの学習により、実績データと制御操作の複数の組合せを得ており、前記制御実行装置は、実績データと制御操作の複数の組合せの中から制御対象プラントの運転状態に応じて1つの実績データと制御操作の複数の組合せを選択し前記制御出力を与えることを特徴とするプラント制御システム。
請求項９に記載のプラント制御システムであって、
実績データの大小に応じて、使用する実績データと操作方法の組合せを学習するニューラルネットを変更する事を特徴とするプラント制御システム。
請求項７から請求項１２のいずれか１項に記載のプラント制御システムであって、
前記制御対象プラントの状態、または制御対象プラントの操作員の経験等にもとづき、制御結果の良否判定基準を変更し、制御対象プラントに対する実績データと操作法の関係をそれぞれ求め、データベースにそれぞれ格納する事で、前記制御対象プラントの状態、または制御対象プラントの操作員の経験等に応じて、異なる制御方法で制御する事を特徴とするプラント制御システム。
請求項７から請求項１３のいずれか１項に記載のプラント制御システムであって、
前記実績データと制御操作の組合せを、制御対象プラントでの制御を実施する前に、制御対象プラントの制御モデルを用いてシミュレーションにより作成し、制御対象プラントにおける前記実績データと制御操作の組合せの学習期間を短縮する事を特徴とするプラント制御システム。
請求項７から請求項１４のいずれか１項に記載のプラント制御システムを適用した圧延機制御装置であって、
前記制御対象プラントは、圧延機であり、前記実績データは前記圧延機の出側形状であることを特徴とする圧延機制御装置。
制御対象プラントの制御を実施するプラント制御システムが実行するプラント制御方法であって、
前記プラント制御システムの制御方法学習装置が、前記制御対象プラントの実績データと制御操作の組合せに基づく制御ルールを学習し、
前記プラント制御システムの制御実行装置が、前記制御方法学習装置によって学習された前記制御ルールに基づいて前記制御対象プラントの制御を実施し、
前記プラント制御システムの制御ルール更新判断装置が、前記制御ルールに基づいて前記制御対象プラントの制御を実施した際の前記実績データに基づいて前記制御対象プラントに対する該制御ルールの適合度を演算し、該適合度に基づいて該制御ルールを更新する
各処理を含んだことを特徴とするプラント制御方法。
請求項１から請求項１５のいずれか１項に記載のプラント制御システムまたは圧延機制御装置としてコンピュータを機能させるためのプラント制御プログラム。